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译 者 序 


2002 年 夏天 ， 中 信 出 版 社交 给 我 一 本 英文 原著 ， 是 由 皮 埃 尔 ， 巴 
Baldi) 和 索 恩 ， 布 鲁 纳 克 (Søren Brunak ) 两 
版 社 于 2001 年 出 版 。 


方法 》( 第 2 版 ) MITH 
术 价值 及 其 在 生物 信息 学 领域 的 重要 性 ， 
社 里 的 重点 图 书 尽 快 在 国内 翻译 出 版 。 由 了 




















尔 迪 ( Pierre 
位 教授 编写 的 《生物 信和 4 
出 版 社 的 编辑 同志 告诉 我 ， 鉴 于 本 书 的 学 
上 版 社 已 购买 了 本 书 的 中 文 版 权 ， 并 准备 作为 
本 书 作 者 在 生命 科学 、 数 学 以 及 计算 机 科学 








等 多 个 领域 都 有 相当 的 造 话 ， 加 之 本 书 同 时 涉及 了 生物 信息 学 的 理论 基础 和 最 前 沿 的 实 
际 应 用 ， 出 版 社 走访 了 几 位 专家 译 者 ， 他 们 都 不 愿意 承 相 这 一 艰巨 的 翻译 工作 。 我 用 了 


整整 一 个 星期 的 时 间 ， 认 真 阅读 了 这 本 书 的 前 言 、 








之 重 。 在 此 之 前 ， 我 也 曾经 读 过 几 本 








内 上 


目录 和 一 些 重要 章节 ， 深 感 本 书 分 量 
时 版 的 生物 信息 学 著作 或 译 著 ， 其 中 大 部 分 是 








有 关 基 因 和 和 蛋白质 序列 分 析 软 件 、 算 法 以 及 相关 网 络 资源 的 工具 书 ， 而 真 ] 


息 学 基本 理论 和 最 前 沿 应 用 
物 信息 学 的 数据 库 和 软件 ， 


的 著作 还 很 少 。 
分 析 基 因 或 人 











前 沿 的 基础 研究 和 新 的 应 用 
物 信息 学 的 3 
究 生 专业 已 经 或 将 要 开设 生物 信息 学 课程 。 








要 理论 、 模 型 和 算法 。 为 了 适应 这 些 新 的 研究 方向 ， 越 来 越 多 的 本 科 和 研 


E 涉 及 生物 信 
我 们 在 实际 工作 中 经 常会 利用 国外 的 一 些 生 





蛋白 质 的 序列 和 结构 ， 但 对 于 这 些 数据 库 和 软件 
背后 的 理论 、 模 型 和 算法 却 所 知 甚 少 。 随 着 
工作 的 不 断 深 入 和 发 展 ， 我 们 的 研究 方向 已 经 从 积累 数据 和 追踪 国外 最 近 进 展 逐 步 转向 
开发 ， 而 这 些 前 





国内 生物 信息 学 和 生命 科学 等 相关 领域 研究 








沿 领域 的 研究 和 开发 要 求 我 们 了 解 和 掌握 生 














因此 ， 





内 的 生物 信息 学 领域 迫切 需要 一 本 














是 够 深信 的 经 典 教材 或 参考 书 ， 而 本 书 正 好 本 





以 满足 这 一 迫切 需求 。 正 如 国外 专家 对 本 


书 的 评论 中 所 说 的 :;“ 仅 靠 这 一 本 书 或 许 很 难 掌握 生物 信息 学 的 全 部 内 容 ， 但 如 果 你 想 


理解 生物 信息 学 ， 此 书 是 不 可 不 读 的 。” 为 
本 书 的 内 容 涉 及 生命 科学 、 数 学 、 信 


此 ， 我 决定 接受 翻译 此 书 这 一 艰巨 的 任务 。 
息 科学 等 诸多 领域 的 最 新 进展 ， 我 深 知 仅 靠 





i 生物 信息 学 








我 们 还 邀请 到 微软 (中 
SRNR, BESS 
校 ， 最 终 完成 了 本 书 的 
达 院 3 




















我 个 人 很 难 在 短期 内 完成 全 书 的 翻 详 工作 ， 
BERBER. AU BAO 
fiche 


CA SEPA RE NA 





上 ， 共 同 








全 体 同 


年 编辑 陈 蕴 真 同志 的 真 减 合作 。 本 书 的 翻译 还 得 到 了 “ 


题 (编号 : 2001CB51030) 
的 工作 条 件 ， 在 此 一 并 致谢 。 





本 书 的 作者 是 国际 著名 的 


大 学 医学 院 信息 和 计算 机 科 
所 





在 生物 信息 学 领域 发 表 了 大 量 的 论文 和 著作 ， 
前 党 应 骨 和 探索 。 本 书 是 他 们 
际 重要 的 生物 信息 学 研 


的 


个 

















基础 一 一 由 
络 、 概 率 图 
树 等 生物 信息 学 问题 


叶 斯 概率 体系 ， 








长 。 索 恩 ' 布 鲁 纳 克 博 士 是 丹 : 


模型 以 及 随机 文法 等 不 同 
的 应 用 。 
相关 数据 的 分 析 方法 。 此 外 ， 
600 条 参考 文献 和 5 个 包含 详尽 数学 推导 的 附 
研究 和 教学 工作 者 提供 非常 实 





的 支持 ， 北 京 市 . 
生物 信息 学 专 
学 系 教授 、 生 物 作 
麦 理工 大 学 


家 。 





讨 班 的 讲义 。 他 们 在 本 书 叶 


组 成 翻译 小 组 ， 几 易 
hp 文 译 稿 。 整 个 过 程 的 艰辛 难以 用 
仁 付 出 的 宝贵 精力 和 时 间 ， 也 上 归 感谢 中 信 出 版 社 青 
家 重点 基础 研究 发 展 规划 ” 




















Wak. A, BA 





其 中 皮 埃 尔 、 
学 系 教授 ， 基 因 组 学 和 生物 信息 学 
上 物 系 教授 ， 生 物 序 殉 分 析 中 心 
涉及 到 许多 生物 信息 


并 在 此 基础 上 着 重 讨论 了 神经 


方法 在 序列 比 对 、 
bh 还 专 腑 一 章 介绍 





+4 


基 





巴尔 迪 博 士 是 

















研 
EfE. 








络 、 隐 马 
建 模 与 基 
































际 的 帮助 。 


了 DNA 微 阵列 和 基 
本 书 还 分 类 列举 了 大 量 相关 网 络 资源 的 详尽 
录 ， 这 些 参考 资料 无 疑 会 给 生物 信息 学 的 


因 表达 ， 





必须 邀 请 相关 领域 的 专家 组 成 翻译 小 组 ， 合 
作 完 成 全 书 的 翻译 和 审 校 工作 。 于 是 ， 我 找到 了 我 国 著名 的 信息 科学 专家 ， 清 华 大 学 信 
ph 心 主任 李 衍 达 院 上， 他 欣然 同意 和 
) 公司 的 资深 软件 设计 工程 师 张 东 晕 先生， 以 及 清华 大 学 信息 
其 稿 ， 又 请 了 多 位 专家 参与 审 


E 持 本 书 的 翻译 工作 。 


ERT 


课 


D 生 局 干部 培训 中 心 为 翻译 小 组 提供 了 良好 


加 州 
究 所 
他 们 


多 年 研究 和 教学 工作 的 积累 ， 本 书 的 早期 版 本 曾 作为 几 
详细 介绍 了 机 器 学 习 方法 的 理论 
氏 模型 、 贝 叶 斯 网 


以 及 


网 址 ， 以 及 近 


在 翻译 和 审 校 过 程 中 ， 我 们 发 现 本 书 有 几 个 值得 关注 的 特点 。 首 先 ， 本 书 试图 利 


用 贝 叶 斯 概率 理论 的 统一 框架 为 机 器 学 习 方 法 在 生物 信息 学 领域 的 应 月 
大 量 篇 幅 介 绍 了 如 何在 概率 理论 的 统一 框架 内 理解 神经 网 络 、 隐 马 
模型 以 及 随机 文法 等 机 器 学 习 方 法 ， 并 详 





理论 基础 。 书 中 使 月 
RRE, MEE 























尽 地 介绍 了 各 种 对 





建立 一 套 完备 的 


PA AED A 


法 。 作 者 对 理论 完备 性 的 追求 无 疑 给 读者 提供 了 很 好 的 背景 知识 和 扎实 的 理论 基础 。 第 


二 ， 本 书 不 仅 介绍 了 机 器 学 习 的 理论 和 算法 ， 还 介绍 了 大 量 的 实际 应 月 
各 种 机 器 学 习 方法 解决 实际 问题 











中 包含 了 作者 在 应 月 


过 程 。 与 许多 流行 的 教科 书 不 同 ， 作 者 不 仅 给 我 们 展示 了 当今 
LEM REA TURNER TUR ARE, Mee 
经 验 无 论 对 于 修补 这 座 大 厦 还 是 构建 一 座 新 的 大 厦 都 是 非常 


构筑 大 厦 的 工具 ， 更 和 
“脚手架 ”的 

















。 最 宝贵 的 是 书 


ph 所 做 的 深入 观察 、 宣 有 创造 力 的 
假设 、 精 细 的 建 模 、 真 实 的 实验 结果 和 透彻 分 析 ， 以 及 不 断 修正 假设 和 模型 的 整个 探索 








生物 信息 学 大 厦 的 缩影 和 


重要 的 。 第 三 ， 








译 者 序 机 


正如 许多 专家 的 详 论 所 指出 的 ， 本 书 在 介绍 相关 理论 和 应 用 的 同时 ， 还 提出 了 生物 信息 
学 前 沿 领域 的 许多 重要 问题 。 读 者 不 仅 可 以 了 解 生物 信息 学 的 前 沿 领 域 ， 还 可 以 追随 原 
作者 探索 这 些 问 题 的 轨迹 ， 开 始 自己 对 前 沿 问题 的 开创 性 研究 。- 

本 书 主要 针对 两 类 读者 : 一 类 是 生物 学 、 生 物化 学 和 医学 等 领域 的 研究 人 员 ， 他 
们 可 以 通过 本 书 了 解 更 多 数据 处 理 和 机 器 学 习 的 有 关 算 法 ， 另 一 类 是 物理 、 数 学 、 统 计 
学 和 计算 机 科学 等 领域 的 学 者 ， 他 们 也 可 以 通过 本 书 了 解 机 器 学 习 方法 在 生命 科学 ， 特 
别 是 在 生物 信息 学 领域 中 的 更 多 应 用 。 本 书 也 可 以 作为 相关 领域 的 大 学 本 科 和 研究 生 教 
材 或 参考 读物 。 

最 后 ， 我 想 指出 尽管 本 书 在 建立 生物 信息 学 的 理论 基础 方面 可 谓 是 一 次 成 功 的 尝 
试 , 但 生物 信息 学 作为 一 门 新 兴 的 跨 学 科 的 科学 还 处 在 起 步 阶段 。 在 本 书 的 翻译 过 程 中 ， 
我 们 深刻 地 体会 到 来 自 不 同学 科研 究 人 员 之 间 的 密切 合作 和 相互 理解 是 多 么 重要 。 虽 然 
本 书包 含 许多 数学 公式 和 推导 ， 但 这 并 不 意味 着 生物 信息 学 排斥 那些 不 熟悉 数学 公式 的 
生物 学 和 医学 专家 ， 如 果 失 去 了 生物 学 和 医学 专家 的 合作 与 理解 ， 生 物 信息 学 将 失去 继 
续 发 展 的 动力 和 应 用 的 基础 。 为 此 ， 我 们 真诚 地 希望 本 书 能 够 赢得 来 自生 物 学 与 医学 领 
域 专家 的 更 多 理解 与 关注 。 

虽然 我 们 尽 了 很 大 努力 ， 以 确保 翻译 的 质量 和 译文 的 准确 ， 但 是 错误 之 处 在 所 蕉 
Se, 希望 广大 读者 批评 指正 。 
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中 文 版 序 


我 们 很 高 兴 看 到 自己 的 著作 《生物 信息 学 -一 机 器 学 习 方法 》 的 第 ?版 翻译 成 中 文 。 






































中 国 在 当今 基因 组 研究 的 浪潮 中 具有 自 
先进 的 计算 科学 用 于 高 通 量 的 基因 组 和 后 基因 组 技术 , 寺 
我 们 很 荣幸 此 时 能 够 为 生物 信息 学 研究 思想 的 全 球 交流 以 及 中 
培养 ， 尽 自己 的 一 份 绵薄 之 力 。 现 在 























际 交 流 合作 都 证 明 中 

















在 人 类 基因 组 计划 中 做 出 了 重要 和 贡献， 水 称 基 因 组 的 测序 也 给 世界 留 下 了 深刻 的 印 
在 基因 组 研究 上 达到 了 很 














中 

象 , 包括 猪 基因 组 测序 在 内 的 一 系列 
高 的 水 平 。 本 书 的 出 版 先 从 另 一 个 方面 证 明了 这 一 点 。 作 为 一 个 拥有 悠久 历史 的 国家 ， 
遇 。 现 在 ， 中 国正 迅速 将 
f 与 那些 传统 的 生物 技术 相 结合 。 
下 一 代 计算 生物 学 家 的 








己 独 特 的 优势 和 发 展 机 



















































































希望 本 书 的 出 版 能 够 增进 中 
































究 的 协调 合作 。 











的 研究 人 员 与 世界 具有 密切 的 国际 合作 ， 我 们 
家 之 问 的 生物 信息 学 理论 和 实验 研 











BURR + 巴尔 迪 
索 恩 ， 布 鲁 纳 克 
2003 年 5 月 
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本 
ie, #4 





节 需 要 一 个 新 的 版 本 。 在 过 去 的 3 年 里 ， 随 着 果 蝇 基 


区 第 1 版 出 乎 意料 的 成 功 曾 使 我 们 深 感 欣慰 。 然 而 ， 由 于 生物 信息 学 持续 迅速 发 
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第 一 个 草 











的 完成 ， 全 基 





组 测序 研究 遂 拖 发 展 。 除 此 之 人 











组 测序 和 人 类 基因 组 工程 
其 他 一 些 高 通 量 /组 合 实 











验 技术 ， 如 DNA 微 阵列 ( 基因 芯片 )、 质 谱 技 术 等 ， 都 取得 了 重大 进展 。 这 些 高 通 量 的 





实验 技术 能 够 快速 产生 10" 字 节 的 实验 数据 ， 拥 有 传统 生物 学 方法 无 法 比拟 的 优势 。 这 
一 切 导致 了 今天 对 计算 机 、 统 计 学 和 机 器 学 习 技术 日 益 强 烈 的 需求 。 


后 基因 组 时 代 的 生物 信息 学 


在 过 去 5 到 10 年 





Ph， 计算 机 在 生命 科学 和 


医学 的 各 个 领域 





作用 。 计 算 机 分 析 应 用 的 第 一 个 高 潮 主要 出 现在 序列 分 析 中 ， 
前 以 及 未 来 的 一 段 时 期 内 ， 我 们 尤其 需要 关注 那些 极为 多 样 





要 的 问题 尚未 解决 ; 在 目 
化 的 数据 的 复杂 集成 关系 。 
A 


描述 DNA 、RNA 和香 








这 些 新 的 数据 类 型 来 源 于 能 够 在 细 


样 体 等 不 同 层次 获取 数据 的 各 种 实验 技术 。 
新 的 高 效 实验 技术 ， 主 要 是 DNA 测 序 技 术 ， 是 以 下 转变 
白质 的 线性 序列 数据 旦 几何 级 数 增长 。 


则 是 传统 试验 方法 的 高 度 并 行 版 本 。 用 DNA 微 阵列 进行 基因 





基本 上 





和 结果 解释 等 方面 的 计算 机 
息 学 的 研究 领域 。 
随 着 基 














二 


发 挥 着 前 所 未 有 的 重要 
这 个 方面 至 今 有 许多 非常 





胞 、 器 官 、 生 物 个 体 甚至 


的 主要 动力 : 新 技术 导致 
其 他 新 的 产生 数据 的 技术 
组 范围 的 基因 表达 测定 ; 


























上 如 同 进行 上 万 个 RNA 印 迹 实验 (northern blots )， 这 使 得 在 实验 设计 
支持 成 为 基本 要 求 。 而 这 一 系列 的 发 展 极 大 地 扩 


组 和 其 他 测序 项 目的 不 断 进展 ， 研 究 的 重点 正 逐 步 从 积累 数 


、 数 据 处 理 
展 了 生物 信 





据 转 移 到 如 
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何 解释 这 些 数据 。 在 未 来 ， 生 物 学 的 新 发 现 将 极 大 地 依赖 于 我 们 在 多 个 维度 和 不 同 尺 度 
下 对 多 样 化 的 数据 进行 组 合 和 关联 的 分 析 能 力 ,而 不 再 仅 依赖 于 对 传统 领域 的 继续 关注 。 


序列 数据 将 与 结构 和 功能 数据 、 基 

















表达 数据 、 生 化 反应 通路 数据 、 表 现 型 和 临床 数据 


等 一 系列 数据 相互 集成 。 在 数据 量 呈 几何 级 数 增长 的 情况 下 ， 生 物 信息 学 的 基础 研究 将 
致力 于 解决 生命 科学 中 与 系统 和 集成 相关 的 问题 。 


如 此 大 量 的 数据 ， 在 生物 信息 的 存储 、 获 取 、 


殿 网 、 处 理 、 浏 览 以 及 可 视 化 等 方 


面 ， 都 对 理论 、 算 法 和 软件 的 发 展 提出 了 迫切 的 需求 。 而 计算 机 科学 也 从 生命 系统 中 获 
得 启示 ， 产 生 了 府 多 新 概念 ， 包 括 : 遗传 算法 、 人 工 神经 网 络 、 计 算 机 病毒 和 人 造 免 疫 


系统 、DNA 计 算 、 人 工 生命 以 及 VLSI-DNA 混 合 基 
了 各 个 相关 领域 ， 这 将 在 未 来 的 几 十 年 中 得 到 进一步 发 展 。 导 
体 信息 处 理 和 基于 “ 硅 ” 的 电子 化 信息 处 理 之 间 的 界 


中 ， 都 已 开始 逐渐 淡化 。[2 




















芯片 ， 等 等 。 这 样 的 学 科 交 叉 丰 富 
事实 上 ， 基 于 “ 碳 ” 的 生物 
限 ， 无 论 是 在 概念 上 ， 还 是 在 实际 


用 于 序列 分 类 、 弱 相似 件 探测 、 区 分 DNA 序 列 中 的 编码 区 和 非 编码 区 、 分 子 结构 


预测 、 转 录 后 修饰 和 功能 的 预测 ， 以 及 好 








外 构 进化 史 的 计算 工具 已 经 成 为 研究 的 基本 








成 


部 分 。 这 些 研 究 是 我 们 理解 生命 和 进化 ， 以 及 发 现 新 药物 和 新 疗法 的 基础 。 生 物 信息 学 
已 成 为 在 生命 科学 和 计算 机 科学 的 前 沿 涌现 出 的 一 门 具有 战略 意义 的 新 学 科 ， 它 将 通过 
各 种 途径 影响 医学 、 生 物 技术 以 及 社会 的 许多 领域 。 

庞大 的 生物 信息 数据 库 对 数据 挖 气 技 术 提 出 了 许多 颇具 挑战 性 的 问题 ， 也 提供 了 
广 靖 的 机 遇 ， 这 些 都 需要 研究 人 员 提 出 新 的 思想 和 方法 。 在 这 方面 ， 传 统 的 计算 机 科学 
算法 曾 有 用 武之 地 , 但 面 对 许多 最 具 重 要 意义 的 序列 分 析 问 题 , 它们 越 来 越 显示 出 不 是 。 











这 一 方面 是 由 于 进化 不 断 修 补 基 








本 学 习 ， 从 数据 中 自动 学 习 理论 。 














织 的 完整 理论 。 而 机 器 学 习 方 法 


， 机 器 学 习 方法 是 传统 方法 的 好 


， 导 致 生物 系统 内 在 的 复杂 性 ; 另 一 方面 则 由 于 我 们 
尚 缺 乏 一 套 在 分 子 水 平 上 理解 生命 纪 
隐 马 氏 模 型 、 支 持 向 量 机 、 和 置信 和 网络 (belief network) ] 正 适 合 这 类 数据 量 大 
声 模式 并 用 缺乏 统一 理论 的 领域 。 机 


[ 例如 神经 网 络 


~ FAR 


器 学 习 方 法 的 基本 思想 是 通过 推理 、 模 型 匹配 或 样 











在 从 机 器 学 习 的 角度 对 生物 信息 学 进行 广泛 全 面 的 介绍 。 


机 器 学 习 方 法 的 计算 量 极 大 ， 


度 。 值 得 注意 的 是 ， 自 20 世 纪 80 年 代 晚 期 以 来 ， 讨 
以 相同 的 速度 增长 ， 即 大 约 每 16 个 月 
图 的 完成 ， 以 及 诸如 DNA 微 阵列 等 高 效 实验 
增长 ， 每 6~8 个 月 就 增长 1 倍 ， 从 而 给 生物 信息 学 带 来 了 更 大 的 压力 。 
机 器 学 习 方 法 好 像 是 一 些 彼此 无 关 的 技术 的 集合 ， 其 实 并 
于 所 有 机 器 学 习 方法 的 统一 的 理论 体系 在 20 


























ERRE. RES 


此 在 很 大 程度 上 得 益 于 不 断 提 高 的 计算 机 处 理 速 
上 算 机 的 处 理 速度 和 序列 数据 量 几 乎 














增长 1 倍 。 而 最 近 ， 随 着 人 类 基 








组 工程 第 一 个 草 

















技术 的 出 现 ， 生 物 信息 数据 以 更 快 的 速度 


在 初学 者 看 来 ， 


f 非 如 此 。 在 理论 方面 ， 一 个 关 
世纪 80 年 代 晚 期 已 经 产生 ， 这 就 是 用 于 建 








前 言 VI 


模 和 推 断 的 贝 叶 斯 概率 体系 。 实 际 上 ， 存 我 们 看 来 ， 机 器 学 习 方 法 与 贝 叶 斯 统计 建 模 和 
推断 之 间 ， 除 了 前 者 更 强调 计算 机 技术 和 大 规模 数据 处 理 之 外 ， 儿 乎 没有 差别 。 正 是 由 
于 数据 、 计 算 机 和 概率 理论 体系 三 者 的 交汇 ， 才 使 得 机 器 学 习 方法 在 生物 信息 学 和 其 他 
领域 获得 了 强劲 的 发 展 动力 ， 并 日 不 断 扩展 。 客 观 地 讲 ， 生 物 信息 学 和 机 器 学 习 方 法 已 
经 开始 在 生物 学 和 医学 领域 产生 总 著 的 影响 。 

即便 您 对 数学 的 严格 性 缺乏 敏感 ， 生 物 数据 的 概率 建 模 仍然 具有 重大 意义 。 这 一 方面 
由 于 生物 测 景 经 常 包 含 难以 去 除 的 噪声 ， 例 如 目前 的 DNA 微 阵列 或 质谱 数据 等 。 另 一 方 
面 ， 序 列 数据 因 其 离散 性 质 及 重复 测序 的 成 本 较 低 ， 并 不 受 噪 声 约束 。 因 此 ， 测 量 噪声 并 
此 采 用 概率 建 模 的 惟一 原因 。 对 生物 数据 进行 概率 建 模 的 真正 需要 来 源 于 生命 系统 的 复杂 
性 和 和 多样 性 ， 这 一 切 来 自 于 漫长 的 进化 进程 中 生物 体 在 复杂 环境 下 历经 的 进化 修补 。 这 样 
的 生命 系统 必然 呈现 很 高 的 维度 〔 dimensionality )。 即 使 在 能 够 同时 测量 数 以 千 计 的 基因 
表达 的 微 阵列 试验 中 ， 我 们 也 仪 仅 观察 到 相关 变量 的 一 个 很 小 的 子 集 ， 面 其 他 绝 大 部 分 变 
景 则 仍然 处 于 隐藏 状态 ， 我 们 必须 依赖 概率 建 模 来 确定 它们 。 直 接应 用 系统 化 的 概率 体系 
能 够 加 速 发 现 变量 的 过 程 ， 避 免 重复 历史 上 序列 分 析 所 走 过 的 弯路 。 概 率 模型 作为 正确 的 
理论 体系 正 是 从 序列 分 析 这 个 过 去 几 -| -年 中 充满 荆棘 的 领域 中 逐步 发 展 而 来 的 。 

机 器 学 习 技术 经 常 受 到 的 批评 是 ， 它 们 都 是 “黑箱 ”方法 : 我 们 总 是 无 法 确定 一 
个 复杂 的 神经 网 络 或 隐 马 氏 模型 是 如 何 达到 特定 解 的 。 我 们 已 经 党 试 在 全 面 的 概率 体系 
中 以 及 从 实践 的 角度 解决 这 一 问题 。 然 而 ， 我 们 需要 看 到 ,许多 当代 分 子 生物 学 的 技术 
是 完全 基于 经 验 的 。 例 如 聚合 酶 链 式 反应 (PCR )， 就 其 实用 人 性 和 灵敏 度 而 言 ， 在 某 种 
程度 1 
是 关于 序列 在 胶体 矩阵 中 的 运动 方式 和 机 动 性 ， 这 里 大 们 更 关心 实际 成 功 和 可 用 性 ， 而 
很 少 关心 对 其 中 物理 现象 细节 的 理解 。 同 样 ， 对 大 部 分 药物 来 说 ， 其 药理 作用 的 分 子 基 
础 日 前 在 很 大 程度 上 尚 属 未 知 。 理 论 最 终 需要 实践 检验 。 至 此 ， 我 们 已 经 简要 地 概述 了 
机 器 学 习 方法 的 功能 及 其 优势 。 













































































读者 及 预备 知识 


本 书面 向 不 同 背景 的 学 生 以 及 高 级 研究 人 员 。 我 们 试图 为 具备 较 强 数学 、 统 计 学 
和 计算 机 科学 背景 的 读者 提供 生物 学 基本 概念 和 问题 的 阐述 。 同 样 地， 本 书 内 容 的 选择 
也 考虑 到 生物 学 家 和 生物 化 学 家 的 需要 ， 他 们 的 生物 学 知识 超出 本 书 的 内 容 ， 但 在 理解 
生物 数据 处 理 的 一 些 新 算法 方面 需要 更 多 的 帮助 。 为 了 使 读者 能 够 实现 本 书 中 所 介绍 的 
算法 或 将 算法 应 用 于 特定 的 问题 ， 本 书 在 提供 相当 深入 的 内 容 的 同时 试图 保持 足够 的 简 
练 性 。 然 而 ， 我 们 并 未 涉及 有 关 大 型 数据 库 和 测序 项 目的 管理 ， 以 及 原始 荧光 数据 处 理 














VIll 生物 信息 学 


等 方面 的 内 容 。 本 书 对 预备 知识 的 要 求 包括 大 学 本 科 水 平 的 微 积 分 、 代 数 和 离散 概率 理 
论 等 。 任 何 关 于 DNA、RNA 和 和 蛋白 质 方面 的 知识 都 是 有 帮助 的 ， 但 不 是 必需 的 。 


内 容 提 要 





我 们 试图 使 本 书 成 为 一 本 全 面 深入 且 简练 易 读 的 介绍 性 著作 。 书 中 包括 主要 概念 
的 定义 和 主要 定理 , 它们 至 少 是 概略 性 。 生 多 的 技术 细节 可 以 在 附录 和 参考 文献 中 找到 。 
本 书 的 大 部 分 内 容 基 于 我 们 在 过 去 几 年 中 发 表 的 论文 ， 以 及 在 ISMB (Intelligent 
Systems for Molecular Biology) 大 会 等 会 议 上 的 讲义 ,在 丹麦 理工 大 学 (Technical 
University of Denmark )、 加 州 大 学 欧文 分 校 { University California Irvine ) 以 及 在 NIPS 
(Neural Information Processing Systems ) 会 议 期 间 组 织 的 讨论 班 讲授 的 有 关 课 程 。 尤 其 
是 作为 本 书 核心 的 广义 贝 叶 斯 概率 理论 体系 ， 曾 在 1994 年 之 后 的 几 届 ISMB 大 会 上 讲解 
过 。 














RB ERR Oe BE SUR AIT, MA TE RR APHID 

史 。 当 我 们 引用 相关 文献 的 细节 时 ， 只 将 注意 力 集中 于 介绍 相关 技术 以 及 一 些 通用 的 一 
般 性 思考 方法 。 同 时 ， 我 们 试图 用 一 些 实验 结果 来 说 明 每 种 方法 ， 其 中 一 些 结果 直接 来 
源 于 我 们 自己 的 工作 。 
第 1 章 ”本章 介绍 分 子 生物 学 中 的 序列 数据 和 序列 分 析 。 其 中 包括 基因 组 和 蛋白 质 

组 的 概述 ， 进 化 所 创造 的 DNA 和 蛋白质 数据 ， 这 些 数据 正 逐 步 进 人 的 这 个 

领域 的 公共 数据 库 。 本 章 还 包括 基因 组 及 其 规模 的 概述 ， 以 及 一 些 在 其 他 

教科 书 中 很 难 找到 的 相关 资料 。 

第 2 章 “本章 旨 在 建立 整个 机 器 学 习 技 术 的 理论 基础 ， 并 且 介 绍 了 存在 不 确定 性 的 
情况 下 如 何 进行 推理 ， 因 此 本 章 是 有 关 理论 的 最 重要 的 一 章 。 本 章 阐 述 了 

序列 问题 的 一 般 性 思想 方法 : 用 于 归纳 和 推理 的 贝 叶 斯 统计 理论 体系 。 这 

一 体系 的 主要 观点 是 ， 概 率 理论 语言 是 适合 于 处 理 机 器 学 习 及 所 有 建 模 问 

题 的 语言 。 所 有 的 模型 必须 是 基于 概率 的 。 在 科学 地 描述 模型 及 其 与 数据 

间 的 关系 时 ， 概 率 理论 是 惟一 需要 的 工具 ， 这 一 点 在 本 书 的 书 名 中 已 有 所 

体现 。 本 章 简要 涵盖 了 一 些 经 典 论题 ， 如 : 先 验 分 布 、 似 然 度 、 贝 叶 斯 定 

理 、 参 数 估计 和 模型 比较 。 在 贝 叶 斯 体系 中 ， 人 们 最 关心 的 是 与 数据 、 隐 

变量 以 及 模型 参数 等 相关 的 高 维 空间 中 的 概率 分 布 。 为 了 外 

概率 分 布 ， 需 要 尽 可 能 地 利用 独立 性 假设 以 便 进 行 简单 的 

型 正 是 基于 这 一 思想 ， 模 型 中 变量 之 间 的 依赖 关系 对 应 于 图 

些 易于 求解 的 常用 模型 往往 对 应 于 相对 稀 朴 的 图 。 本 章 对 图 












































































































































第 3 章 


第 4 章 


第 5 章 


第 6 章 


第 7 章 





些 处 理 高 维 分 布 的 技巧 只 做 了 简略 介绍 ， 更 深入 的 内 容 参阅 附录 C。 应 用 


BRAC A (MBL) 


图 模型 必然 成 为 各 种 方法 的 两 个 真正 核心 的 思想 。 





本 章 用 一 些 例子 进一步 说 明 广义 员 叶 斯 概率 体系 ， 为 以 后 的 学 习 做 准备 。 





这 里 介绍 了 几 个 经 典 例子 的 处 理 细节 ， 


随后 的 几 章 中 将 用 到 它们 。 熟 悉 这 


些 例 子 的 读 考 在 快速 浏览 本 书 时 可 跳 过 本 章 。 本 章 中 所 有 的 例子 都 基于 投 
掷 一 个 或 多 个 骨 子 从 而 生成 序列 的 思想 。 咒 子 模型 只 是 一 个 极为 简单 的 模 


型 ， 然 而 本 书 的 主要 部 分 ， 从 第 7 章 到 
RHE. Rit AP BRR ART BE 








第 12 章 ， 都 可 以 视 为 这 个 模型 的 不 
贝 叶 斯 概率 体系 中 的 一 个 精彩 应 用 。 





此 外 ， 统 计 力 学 在 机 器 学 习 的 许多 方面 为 我 们 提供 了 深刻 的 启示 。 尤 其 在 


第 4 章 ， 统 计 力 学 被 应 用 于 一 系列 算法 





和 期 望 最 大 (expectation maximization, 
本 章 简要 介绍 了 许多 应 用 于 贝 叶 斯 推断 














Ph ， 如 蒙特 卡 罗 方 法 ( Monte Carlo) 
EM) 等 算法 。 
、 机 器 学 习 和 序列 分 析 的 基本 算法 ， 


这 些 算 法 大 多 用 于 计算 期 望 值 和 优化 代价 函数 (cost function )。 这 些 算法 
包括 各 种 形式 的 动态 规划 、 梯 度 下 降 法 和 EM 算法 ， 以 及 一 些 随机 算法 ， 
如 马尔 可 夫 链 一 蒙特 卡 罗 算 法 ( Markov Chain Monte Carlo, MCMC). 


MCMC 算 法 的 一 些 著名 应 用 ， 如 吉 


Metropolis 算 法 、 模 拟 退 火 算 法 〈 simul: 
所 涉及 。 在 初次 阅读 时 可 以 跳 过 本 章 ， 
细节 不 感 兴趣 的 读者 。 


布 斯 采样 ( Gibbs sampling )、 
ated annealing) 等 ， 在 本 章 中 都 有 
尤其 是 熟悉 算法 或 者 对 算法 的 实现 





第 5~9 章 和 第 12 章 构成 了 本 书 的 核心 部 分 。 第 5 章 主要 介绍 神经 网 络 的 理论 。 


其 中 包括 基本 概念 的 定义 ， 反 
作为 广义 函数 有 逼近 器 的 简单 证 明 。 更 于 








向 传播 学 习 算法 的 简要 推导 ， 以 及 神经 网 络 
要 的 是 介绍 了 如 何 从 第 2 章 建立 的 








一 般 概率 体系 出 发 ， 更 好 地 理解 神经 





中 代价 函数 的 选择 。 
本 章 列举 了 一 些 精心 选择 的 应 用 神经 


网 络 技术 解决 序列 分 析 问 题 的 全 


络 这 个 经 常 被 视 为 与 概率 理论 不 相 


关 的 方法 。 接 下 来 ， 这 种 思想 将 用 来 指导 神经 网 络 结构 设计 以 及 机 器 学 习 


子 。 








我 们 并 不 想 涵盖 迄今 为 止 的 数 百 个 应 有 


例子 ， 而 只 选择 了 一 些 由 于 方法 论 











上 的 进展 而 显著 改善 了 应 用 效果 的 范例 


。 我 们 尤其 关注 那些 序列 分 析 中 机 


器 学 习 过 程 优化 的 问题 ， 以 及 如 何 组 合 网 络 以 构成 更 加 全 面 有 效 的 算法 。 
本 章 中 具体 分 析 的 方法 包括 ， 蛋白质 的 二 级 结构 、 信 号 肽 内 含 子 剪接 位 点 











和 基 





发 现 。 








第 7~8 章 是 关于 隐 马 氏 模型 (HMM )， 其 内 容 安排 与 第 5~6 章 相似 。 其 中 第 





7 章 包 





括 对 隐 马 氏 模 型 的 详尽 介绍 ， 相 关 的 动态 规划 算法 (前 /后 向 算法 和 








X 生物 信息 学 


第 8 章 


第 9 章 


第 10 章 


第 11 章 


第 12 章 


第 13 章 


Viterbi 算 法 ) 和 学 习 算法 ( EM 算法 、 梯 度 下 降 法 等 )。 生 物 序列 的 隐 马 氏 
模型 可 以 理解 为 包含 插入 利 删除 操作 的 避 子 模型 的 推广 。 
本 章 包括 精心 选择 的 隐 马 氏 模 型 在 蛋白 质 和 DNA/RNA 序 列 问 题 上 的 应 用 
Al, RAF RT BERRA ERA, BOS ARR ER 
大 规模 多 重 序列 比 对 、 序 列 分 类 ， 以 及 在 大 型 数据 库 中 搜索 完整 或 破碎 的 
序列 片断 。 对 于 DNA 序 列 问题 ,我 们 介绍 了 隐 马 氏 模 型 如 何 用 于 基因 发 现 
(启动 子 、 外 显 子 和 内 含 子 ) 和 基因 结构 分 析 ( gene-parsing ) 等 任务 。 
尽管 隐 马 开 模 型 非常 有 效 ， 但 它 仍 然 存在 一 些 局 限 性 。 第 9~11 章 的 内 容 可 
以 看 做 隐 与 氏 模 型 在 不 同方 向 上 的 扩展 。 其 中 第 9 章 系 统 应 用 人 概率 图 模型 
的 理论 作为 统一 的 概念 ， 并 从 中 导出 几 类 新 的 模型 ， 例 如 : 隐 马 氏 模型 和 
神经 网 络 相 结 合 的 混合 模型 ， 能 够 利用 序列 空间 特征 而 不 仅仅 是 时 间 特 征 
的 双向 马尔 可 夫 模 型 。 本 章 还 包括 基因 发 现 、DNA 对 称 性 分 析 和 蛋白质 二 
级 结构 的 预测 等 应 用 。 
本 章 介绍 了 系统 进化 树 (phylogenetic tree) 并 将 其 纳 人 第 2 章 建 立 的 概率 
理论 体系 ， 由 此 导出 进化 的 概率 模型 。 本 章 讨论 的 模型 以 及 本 书 的 
模型 均 可 视 为 第 3 章 中 简单 骨 子 模型 的 推广 。 我 们 特别 指出 : 在 了 解 这 些 
方法 所 近似 的 内 在 概率 模型 的 情况 下 ， 那 些 经 常 从 非 概 率 意 义 的 角度 阐 
述 的 系统 进化 树 重 构 方法 [ MAAK (parsimony method) ] ,实际 上 只 
是 广义 概率 体系 的 一 个 特例 。 
包括 正则 文法 (formal grammar ) 和 乔 姆 斯 基层 次 〈 Chomsky hierarchy ). 
随机 文法 (stochastic grammar ) 作为 隐 马 氏 模 型 和 简单 盘子 模型 的 推广 ， 
为 生物 序列 提供 了 一 类 新 的 模型 。 其 中 随机 正则 文法 〈 stochastic regular 
grammar) 本 质 上 等 价 于 隐 马 氏 模型 。 而 上 下 文 无 关 随 机 文法 〈 stochastic 
context-free grammar ) 则 有 更 强 的 表达 能 力 ， 它 大 致 对 应 于 能 够 产生 1 对 
字符 〈 而 不 只 是 1 个 字符 ) 的 似 子 模型 。 本 章 简要 回顾 了 随机 文法 的 应 用 ， 
尤其 在 RNA 建 模 方面 的 应 用 。 
本 章 主要 集中 于 DNA 微 阵列 的 基因 表达 数据 分 析 ， 并 再 一 次 推广 了 山子 
模型 。 我 们 介绍 了 如 何 系统 应 用 贝 叶 斯 概率 体系 对 微 阵列 数据 进行 分 析 。 
我 们 特别 考虑 了 基因 在 不 同 条 件 下 表达 水 平 是 否 发 生变 化 和 基因 聚 类 问 
题 。 本 章 还 简要 讨论 了 基因 凋 控 区 的 分 析 和 基因 调控 网 络 的 推导 问题 。 
本 章 包括 当前 因特网 上 有 关 数 据 库 资 源 和 其 他 公共 资源 的 概述 ， on 
个 包含 许多 重要 网 站 的 网 址 目录 和 链接 。 由 于 这 些 资源 变化 很 快 ， 
我 们 主要 介绍 一 些 定期 更 新 信息 的 网 站 。 当 然 ， 本 章 也 给 出 了 一 inne 




























































































































































































其 他 相关 网 站 链接 的 定期 更 新 的 网 页 。 


本 书 的 附录 包含 几 节 技 术 性 较 强 的 讨论 ， 它 们 是 深入 埋 解 本 书 内 容 的 重要 参考 。 


附录 A 
附录 B 


MIRC 


附录 D 


附录 E 





包括 误差 带 (error bar )、 充 分 统计 
主要 包括 信息 论 以 及 精 、 开 信息 (mutual information). #f 
entropy ) 等 一 些 基本 概念 。 
简要 概述 图 模型 、 独 立 性 和 马尔 可 
尔 可 夫 域 )， 也 包括 有 向 图 模型 ( 贝 叶 斯 网 络 )。 
关于 隐 杞 氏 模 型 的 一 些 技术 
(loop architecture ) 和 可 弯 
简要 概述 了 两 类 相关 生日 趋 和 





机 。 


上 量 以 及 指数 型 分 布 族 等 统计 学 概念 。 


StH (relative 




















图 模型 ( 随机 马 























问题 ， 包 括 数 域 缩放 (scaling )、 环 状 构架 


要 的 机 器 学 习 模型 ， 高 斯 过 程 和 支持 向 量 


本 书 还 附 有 许多 练习 题 ， 从 一 些 简 单 的 证 明 到 一 些 定理 的 扩展 方法 都 有 。 


为 了 阐述 方 
者 可 以 从 上 下 文 





第 2 版 增加 和 删 去 的 内 容 


在 书 中 不 同 部 分 ,对 


分 布 的 推导 








我 们 增加 了 - - 些 新 的 内 容 或 者 从 一 个 新 的 角度 对 于 原 有 内 容 进 
TE. AM, BIA PRPRAM MIC ALF RAE BH HM ( Boltzmann-Gibbs ) 
; 第 8 章 中 将 隐 马 氏 模 理 应 用 于 序列 片断 、 启 动 子 、 亲 水 性 分 布 


便 起 见 ， 我 们 有 时 隐 含 了 -- 些 关于 正定 性 或 可 微 性 的 标准 假设 ， 但 污 
清楚 地 知道 这 些 假设 成 立 。 














{hydropathy profile )、 可 弯曲 性 分 布 图 ( bendability profile ) 分 析 ; 第 10 章 中 从 概率 论 


的 角度 分 析 音 畜 法 和 高 阶 进 化 模型 ， 第 12 章 中 关于 芯片 数据 的 基 

















差异 表达 的 贝 叶 斯 分 


析 。 另外， 我 们 还 给 出 了 从 自由 能 的 角度 看 待 EM 算 法 。 这 种 提 法 不 为 人 熟知 ， 根 据 我 
们 得 到 的 材料 ， 这 种 方法 最 早 是 由 尼 尔 ( Neal ) 和 欣 顿 ( Hinton ) 在 他 们 未 发 表 的 技术 
报告 中 提出 的 。 

在 本 书 第 2 版 出 版 的 过 程 中 ， 





和 有 益 的 反馈 。 书 中 





许多 地 方 都 有 





我 们 从 许多 同事 、 学 生 和 读者 那里 得 到 了 大 力 的 帮助 
E 和 更 新 ， 以 便 反 映 全 基因 组 测序 和 其 














他 高 通 量 技术 所 引发 的 科学 发 现 的 迅速 发 展 。 此 外 ， 我 们 还 在 第 2 版 中 做 了 如 下 一 些 重 


KW: 


“第 1 章 中 新 增 了 介绍 人 类 基 
* 第 1 章 中 增加 了 关于 蛋白 质 功 能 和 可 变 剪 接 的 内 容 。 
“第 6 章 中 列 出 了 神经 网 络 的 一 些 新 应 用 。 

“完全 改写 了 第 9 章 ， 其 主要 内 容 改 为 





























模型 的 系统 阐述 及 其 在 生物 信息 学 中 的 应 








Xll 生物 信息 学 





用 。 本 章 还 特别 包含 了 有 关 基 因 发 现 ， 递 归 神 经 网 络 用 于 和 蛋白质 二 级 结构 预测 的 


新 内 容 。 











"增加 了 新 的 一 章 (第 12 章 )， 专 门 讨论 DNA 微 阵列 数据 和 基因 表达 。 


"增加 了 一 节 新 的 附录 《附录 E )， 讨 论 支 持 向 量 机 和 高 斯 过 程 。 


本 书 的 材料 组 织 和 一 些 问题 讨论 反映 了 作者 的 个 人 偏好 。 由 于 篇 幅 所 限 ， 省 略 了 
一 些 相关 问题 的 讨论 。 关 于 贝 叶 斯 推断 和 贝 叶 斯 网 络 的 分 析 ， 在 理论 水 平 上 尚 待 提高 。 


如 果 从 统一 的 角度 出 发 和 更 有 利于 对 问题 进行 抽象 ， 





本 书 的 大 部 分 内 容 实际 上 完全 可 以 


只 用 贝 叶 斯 网 络 的 思想 加 以 组 织 写作 。 我 们 关于 系统 进化 树 、DNA 币 阵列 和 基因 聚 类 


的 生物 学 讨论 ， 还 可 以 进一步 扩充 。 无 论 如 何 ， 在 相 
们 列 出 了 丰富 的 参考 文献 。 





词汇 和 表示 法 


关 问 题 具 有 合适 的 补充 材料 时 ， 我 


诸如 “生物 信息 学 ”( bioinformatics ) “计算 生物 学 ”( computational biology )、 
“计算 分 子 生 物 学 ”( Computational molecular biology) 以 及 “生物 分 子 信息 学 ” 
(biomolecular informatics ) 等 词汇 用 以 表示 本 书 所 关注 的 研究 领域 。 为 了 用 词 灵活 起 见 ， 
我 们 在 书 中 对 于 这 些 词汇 并 不 加 以 区 分 ， 实 际 上 读者 必须 注意 前 两 个 概念 的 范围 更 广 ， 
还 包含 免疫 系统 和 大 脑 的 计算 机 建 模 等 本 书 没有 讨论 的 研究 领域 。 最 近 ， 计 算 分 子 生物 
学 还 被 赋予 了 一 个 完全 不 同 的 含义 ， 类 似 于 “DNA 计 算 ”( DNA computing )， 这 是 一 





个 用 于 描述 利用 生物 分 子 一 一 而 不 是 肆 片 一 -制造 计 : 
神经 网 络 的 概念 时 ， 有 时 会 在 前 面 加 上 “人 工 的 ”这 
划算 法 的 角度 讨论 人 工 神经 网 络 。 























算 设备 的 概念 。 本 书 中 我 们 在 使 用 
个 形容 词 。 这 里 ， 我 们 仅 从 模式 识 


最 后 提 一 句 ， 本 书 所 使 用 的 大 部 分 符号 列 于 书 的 结尾 处 。 我 们 一 般 不 系统 区 分 标 


量 、 向 量 和 和 矩阵。 诸如 “D” 这 样 的 符号 用 于 表示 数据 ， 但 不 考虑 数据 的 复杂 程度 。 必 
要 时 ,向 量 都 祝 为 列 向 量 。 黑 体 字符 通常 用 于 表示 概率 概念 ， 诸 如 概率 CP), 期望 (E) 
和 方差 《Var )。 如 果 X 表 示 一 个 随机 变量 ,我 们 使 用 P(x ) 代表 P( X=x )， 在 不 产生 歧 
义 的 时 候 ， 还 直接 为 P(X)。 实 际 的 概率 分 布 可 以 记 为 P、Q、R 等 符号 。 

本 书 中 ， 我 们 主要 讨论 离散 概率 分 布 的 情况 ， 读 者 也 应 该 了 解 如 何在 必要 时 将 结论 推 
广 到 连续 概率 分 布 的 情形 。 手 写 体 符号 用 于 表示 特殊 函数 ， 诸 如 能 量 CE) 和 CH) ie 
外 ,我 们 还 必须 经 常 考虑 用 许多 下 标 标识 的 变量 。 例 如 ， 神 经 网 络 中 连接 权重 所 依赖 的 其 

















所 连接 的 神经 元 i、j 和 所 在 的 隐 层 1， 在 学 习 算法 迭代 中 











的 时 间 :， 等 等 。 在 特定 的 分 析 中 ， 


仅仅 那些 最 具 相 关 性 的 变量 需要 在 下 标 中 标识 。 在 极 少数 不 会 引起 歧义 的 地 方 ， 我 们 会 使 
用 相同 的 符号 代表 两 种 不 同 的 意义 。( 例如 ，DD 也 代表 隐 马 氏 模型 中 的 删除 状态 。》 
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1.1 


数字 化 符号 序列 中 的 生物 学 数据 


与 生物 体 功能 和 进化 相关 的 链 状 分 子 具有 一 种 基本 特性 ， 即 它们 能 够 以 数字 
化 符号 序列 的 形式 表示 。DNA、RNA 以 及 和 蛋白质 分 子 中 的 核 苷 酸 和 氨基 酸 单 休 是 





确定 的 。 虽 然 它们 在 生理 环境 中 常常 会 经 历 复杂 的 化 学 修饰 ， 仍 然 可 以 使 用 很 少 
的 字符 表示 其 分 子 链 的 组 成 。 因 此 ， 通 过 实验 得 到 的 生物 序列 在 原则 上 是 完全 确 





定 的 。 在 某 一 序列 的 特定 位 置 土 ， 我 们 只 能 发 现 一 种 确定 的 单 休 或 “字符 "， 而 


不 是 几 种 可 能 性 的 组 合 。 
遗传 数据 的 数字 化 特征 使 它们 明显 不 同 于 其 他 许多 科 


学 实验 数据 。 在 其 他 科 


学 实验 中 ,物理 学 基本 定律 和 实验 技术 的 复杂 性 决定 了 实验 结果 或 多 或 少 有 不 确 
定性 。 与 此 相对 照 的 是 ， 在 经 济 能 力 和 其 他 资源 允许 的 条 件 下 ， 我 们 可 以 完全 确 
定 某 因 组 DNA 的 核 芽 酸 序 玉 以 及 与 之 相关 的 蛋白 质 的 氨基 本 序列。 然而， 在 大 规 





模 DNA 测 序 的 基因 组 项 目 中 ， 或 者 进行 蛋白 质 直接 测序 时 














， 研 究 目标 、 信 息 检 索 


能 力 、 承 所 项 目的 机 构 、 伦 理 和 经 济 等 因素 都 会 影响 数据 质量 的 标准 。 


生物 序列 数据 的 数字 化 特性 对 算法 的 类 型 产生 了 深刻 


的 影响 ， 这 些 算法 用 于 


计算 分 析 并 发 展 得 较为 成 熟 。 使 用 这 些 算法 不 仅 能 研究 特定 的 序列 及 其 分 子 结构 
和 功能 ， 还 能 常常 用 于 对 一 组 序列 的 综合 研究 ,包括 : 特定 序列 在 不 同 物种 中 的 


不 同形 式 ， 以 及 在 具有 多 态 性 的 情况 下 ， 相 同 物种 中 序列 

















的 不 同形 式 。 为 了 更 好 


地 对 不 同 物种 的 序列 模式 进行 比较 研究 ， 还 必须 考虑 到 生物 序列 的 内 在 “了 曝 声 "， 
这 种 噪声 表现 为 序列 片断 的 多 样 性 ， 这 种 多 样 性 部 分 地 来 自 被 进化 放大 了 的 随机 
事件 。 由 于 具有 特定 功能 和 结构 的 DNA 和 氨基酸 序列 存在 一 些 不 确定 的 差异 ， 序 





2 生物 信息 学 


询 模 型 必然 是 基于 概率 理论 


111 ”数据 库 注释 的 质 





的 模型 。 
量 


虽然 由 实验 确定 的 序列 数据 可 以 达到 很 高 的 精度 ， 人 研究 人 员 得 到 的 数据 常 


常 包 含 各 种 噪声 ， 这 些 喉 声 是 对 实验 结果 的 错误 解释 和 公共 数据 库 





bh 数据 处 理 、 


存储 不 当 等 的 综合 结果 。 这 似乎 有 些 不 合 逻 辑 。 但 是 实际 |,.， 由 于 生物 序 询 都 是 


用 电子 化 方式 存储 ， 维 护 数据 库 的 人 员 组 成 也 极为 不 同 ， 数 据 库 中 的 数据 更 是 由 





要 远大 于 初始 的 实验 误差 就 


特征 一 般 表 现 为 相 
ERRI 





a 
H 


名 回忆 起 整 首 歌 


o 





中 内 容 寻 址 的 步骤 不 同 。 证 
颜色 等 的 时 候 ， 并 非 总 能 
多 数 情 况 下 ， 也 要 求 这 些 


生物 序列 的 检索 算法 








后 


H; 


` 同 的 生物 学 家 和 生物 信息 科学 家 提交 和 注释 的 ， 


大 型 序列 数据 库 中 数据 的 存储 方式 是 导致 这 一 
关 位 置 的 数字 列表 ， 而 不 是 序列 的 具体 内 容 。 能 够 处 理 个 人 毕 
芭 来 的 人 量 信 息 是 人 脑 的 一 种 
ddressable ) 的 存储 方案 来 记忆 信息 的 。 通 过 这 种 方式 ， 人 脑 可 以 根据 一 项 记忆 
很 小 的 一 部 分 得 到 这 项 记忆 全 部 内 容 。 例 如 ， 人 


今天 的 计算 机 是 为 处 理 数字 而 设计 的 ， 例 如 ， 许 多 
没有 社会 保险 号 之 类 的 个 人 识别 号 码 。[ 1 计算机 注释 和 检索 信息 的 方式 与 人 脑 
| 算 机 在 搜索 某 人 








此 后 续 信息 处 理 引 人 的 误差 





AN HEIL, 100101327) 
问题 的 重要 因素 。 生 物 序列 的 


《content- 





AREY, ARELA E Fob 





门 经 常 通过 一 首 歌曲 天 





F 始 的 两 





家 在 计算 机 出 现 以 前 并 














护照 上 的 特征 ， 如 姓名 、 
选 出 惟一 精确 的 匹配 ; 而 用 在 能 够 得 到 精确 
息 必 须 使 用 正确 的 语言 和 准确 的 拼写 。 

1 以 看 做 根据 内 容 的 “模糊 ”( fuzzy ) 表达 玫 


只 业 或 头发 
匹配 的 大 








A 


式 搜索 特 


定 序列 的 相关 方法 ， 它 大 大 不同 于 根据 功能 对 序列 进行 搜索 。 实 验 人 员 向 数据 库 





提交 功能 信息 时 ， 经 常 要 
形式 ， 转 换 成 数据 库 可 以 


将 实验 室 中 
接受 的 形式 ， 即 将 这 些 表示 具体 内 容 的 各 种 符号 统一 转 





保存 功能 信息 的 序列 标记 、 色 彩 或 其 他 表示 











换 为 与 位 置 相 关 的 整数 。 
息 。 

在 序列 数据 库 中 ， 这 科 
的 误差 ， 而 不 是 检索 关键 词 
Ba 
过 到 的 错误 是 基因 
氨基 酸 序列 则 是 功 全 
和 存储 方式 并 不 容易 。 就 目 
的 机 器 学 习 方 法 时 ， 考 虑 这 








序列 的 位 置 与 注释 的 结构 或 功能 特征 之 间 随 机 地 失去 了 
DNA 序 列 中 编码 
E 位 点 或 转录 后 修饰 位 点 标注 错误 。 设 计 一 种 完美 的 数据 注释 








此 ， 人 们 不 再 可 能 直接 用 视觉 审核 这 些 数字 形式 的 信 
表示 旋 法 会 导致 一 些 负面 后 果 。 此 时 ， 数 字 特 征 表 中 
可 以 接受 的 噪声 ， 通 常会 导致 一 些 垃圾 信息 ,使 得 记 
E 确 的 对 应 关系 。 经 常 
区 的 注释 错误 或 毫 无 意义 ， 对 于 








区 或 非 编码 








前 的 情况 而 言 ， 生 物 信息 学 家 在 建立 用 于 预测 和 分 类 
些 潜在 的 误差 来 源 是 非常 重要 的 。 
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在 许多 由 序列 决定 的 生物 机 制 中 ， 特 定位 置 上 出 现 某 些 特定 的 核 苷 酸 或 氨基 
酸 是 必 不 可 少 的 。 这 类 先 验 知识 有 助 于 发 现 数据 中 的 “印刷 ”错误 (typographical 
error )。 有 趣 的 是 ， 机 器 学 习 技术 提供 了 另外 一 种 非常 有 效 的 发 现 错误 信息 和 错误 
注释 的 方法 。 在 一 批 数据 中 ， 如 果 某 些 样本 难以 学 习 ， 那 么 它们 很 有 可 能 是 某 些 
非 正 常情 况 ， 或 者 是 功能 注释 不 正确 。 在 这 两 种 情况 下 ， 最 好 能 够 崭 除 显著 背离 
一 般 规律 的 样本 。 通 过 这 种 方式 ， 机 器 学 习 技 术 已 经 发 现 了 真 核 生物 基因 内 含 子 
剪接 位 点 的 标识 错误 ，[ 9708227 1 哺乳 动物 蛋白 质 中 0 联 糖 基 化 位 点 的 标识 错误 
或 遗漏 ,，! 2 1 小 RNA 病 毒 中 多 蛋白 剪 切 位 点 的 错误 标识 , [551 等 等 。 值 得 注意 的 是 ， 
并 非 所 有 的 误差 都 来 源 于 数据 处 理 ， 例 如 ， 将 论文 中 的 信息 转化 为 数据 库 数 据 项 
的 过 程 中 也 会 引 和 人 误差 一 相当 大 量 的 误差 来 源 于 实验 人 员 所 做 的 错误 标识 。[32 1 
许多 这 类 错误 可 以 在 加 入 公共 数据 库 之 前 由 简单 的 一 致 性 检验 发 现 。 

在 公共 数据 库 中 ， 特 征 注释 原始 依据 的 不 确定 性 是 一 个 很 普遍 的 问题 。 注 释 
的 依据 可 能 是 实验 方法 ， 也 可 能 是 序列 的 相似 性 ， 或 者 仅仅 是 某 个 预测 算法 。 在 
数据 库 中 ， 这 种 情况 经 常 导 致 一 些 较为 随意 的 标识 ， 使 用 诸如 问号 ( ? ) 或 “有 
可 能 的 ”( POTENTIAL), “大 概 的 ”(PROBABLE ) 等 标注 方式 ， 不 便于 自动 分 
析 。 为 了 避免 对 特定 算法 的 预测 性 进行 循环 评价 ， 需 要 对 数据 进行 精心 的 准备 并 
有 卫 删 除 来 源 不 明 的 数据 。 如 果 没 有 正确 使 用 数据 ， 随 着 更 多 预测 算法 的 出 现 ， 这 
个 问题 在 将 来 会 变 得 越 来 越 严 重 。 机 器 学 习 技术 之 所 以 能 够 在 这 样 一 个 数据 并 不 
精确 的 领域 中 效 得 成 功 ， 原 因 之 一 在 于 : 与 相对 应 的 生物 学 机 制 类似 ， 它 在 庞大 
的 序列 数据 集 支 持 下 可 以 很 好 地 处 理 数 据 中 的 噪声 。 在 相关 的 自然 语言 学 习 研究 
中 ， 最 新 发 现 表 明 : 8 个 月 的 要 儿 就 能 够 发 现 一 些 语言 规律 ， 并 且 通 过 学 习 简单 
的 统计 特征 识别 连续 语音 中 的 词语 边界 。'*”* 语言 学 习 对 于 婴儿 正如 DNA 序 列 对 
于 我 们 一 样 神秘 和 复杂 ， 因 而 机 器 学 习 技 术 自 然 也 能 有 助 于 揭示 基因 组 数据 中 的 
类 似 规律 。 


1.1.2 RERNA 


在 蛋白 质 和 DNA 序 烈 分 析 中 ， 另 一 个 经 常 困扰 研究 者 的 问题 是 数据 元 余 。 蛋 
白质 或 基 内 组 数据 库 中 的 许多 记录 代表 一 些 蛋 白质 和 基因 家 族 的 不 同 成 员 ， 或 者 
在 不 同 生物 中 发 现 的 同 源 基 因 的 不 同 版 本 。 一 些 研究 小 组 可 能 分 别提 交 了 相同 的 
序列 数据 ， 因 此 相对 应 的 数据 项 即使 不 是 完全 相同 ， 也 多 少 是 密切 相关 的 。 这 些 
相似 序列 的 注释 在 最 好 的 情况 下 也 只 是 大 致 相同 ， 而 某 些 显著 的 区 别 可 能 反映 了 
生物 体 或 组 织 真 正 的 特异 性 。 

在 测序 项 目 中 ， 典 型 的 数据 元 余 来 自 不 同 的 实验 手段 本 身 。 例 如 ， 一 条 特定 














































































































4 生物 信息 学 


的 DNA 序 列 片段 既 可 以 通过 基因 弓形 式 测序 ， 还 可 以 通过 cDNA 的 形式 测序 ， 内 
为 CDNA 是 与 细胞 中 转录 的 RNA 序 列 开 补 的 。 由 于 存 人 数据 库 的 序列 是 以 广泛 多 
样 的 手段 获得 的 -一 从 包含 曲 声 的 单 遍 测 序 结果 到 通过 5~10 遍 重复 测序 获得 的 完 
整数 据 ， 数 据 库 中 的 不 同 记录 可 表示 同 ~ 个 基因 ， 但 是 这 些 记录 之 间 可 能 存在 不 
同 程度 的 差异 。 

在 大 量 真 核 生物 中 ，cDNA 序 列 ( 完整 的 或 不 完整 的 》 代 表 了 mRNA 前 体 剪接 
后 的 形式 ， 这 意味 着 :对 于 那些 经 过 可 变 剪接 的 基因 ， 其 基因 组 中 DNA 片 段 一 般 
对 应 于 几 条 在 染色 体 中 并 不 连续 的 cDNA 序 列 。[%!1 可 变 前 接 的 产生 可 以 有 多 种 不 
同 的 方式 。 余 1-1 给 出 了 一 些 剪接 过 程 中 编码 区 和 非 编码 区 结合 、 跳 过 或 替换 的 不 
间 方 式 。 同 样 利用 剪接 机 制 的 生物 ， 在 进行 可 变 剪接 时 表现 得 非常 不 同 。 显 然 ， 可 
变 剪 接 机 制 的 替代 方法 起 在 基因 组 中 直接 包含 相同 基因 的 一 些 不 同 版 本 。 这 可 能 正 
是 秀丽 线虫 ( Caenorhabditis elegans ) 所 采用 的 策略 ， 它 可 能 包含 大 量 非常 相似 的 
基因 ， 这 在 转化 为 数据 集 时 也 产生 了 宛 余 。'”] 在 人 类 基因 组 中 ， 至 少 30%~80% 
的 基因 可 能 具有 可 变 剪接 机 制 。[ SOM 1 事实 上 ， 可 变 剪 接 可 能 是 一 条 准则 而 不 
只 是 一 种 特例 。 
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图 1-1 MEAT ERA 


左 列 从 上 疝 下 依次 为 ， 外 显 子 序列 盒 (MERESET), TES WRIA, TEIMER. A7 
从 上 向 下 分 别 是 ,保留 整个 内 含 子 ， 成 对 草 接 的 外 显 子 以 及 外 显 子 的 互 斥 。 这 些 不 同类 型 的 mRNA 前 体 的 
可 变 处 理 过 程 可 以 进行 组 合 。 (98 











数据 元 余 还 可 能 对 大 规模 并 行 基因 表达 实验 产生 重要 影响 ， 我 们 将 在 第 12 章 
进一步 讨论 这 个 问题 。 无 沦 是 被 点 样 到 玻璃 平板 上 ， 还 是 直接 在 DNA 微 阵列 上 生 
成 ， 实 验 中 所 使 用 的 基因 序列 总 是 基于 存储 在 数据 库 中 的 序列 或 序列 族 。 这 样 ， 
微 阵列 中 最 终 包括 的 序列 ， 会 多 于 特定 生物 体 全 基因 组 中 的 基因 数 日 ， 从 而 在 定 
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量化 芯片 实验 的 杂交 记录 时 产生 噪声 。 

在 蛋白 质数 据 库 中 ， 特 定 基因 也 可 能 表示 为 某 种 氨基 酸 序 列 ， 但 该 序列 并 不 
对 应 于 原始 核 朝 酸 序列 的 直接 翻译 。 例 如 ， 蛋 白质 序列 经 常 需要 通过 微小 的 修饰， 
以 便 获 得 更 好 的 晶体 ， 利 于 采用 X 英 线 晶 体 入 射 法 测定 结构 。'”! 所 基本 的 删除 和 
替换 也 是 导致 数据 宛 余 的 常见 原 

使 用 具有 宛 余 的 数据 集 至 少 会 导 下 二 种 误差 : 第 一 ， 如 果 数据 集中 的 氨基 酸 
或 核 寿 酸 序列 包含 很 大 的 密切 相关 的 序列 家 族 ， 统 计 分 析 将 偏向 这 些 家 族 ， 并 侧重 
描述 它们 具有 的 特征 ; 第 二 ， 序 列 不 同位 置 之 间 表面 上 的 相关 性 可 能 是 对 序列 数据 
进行 有 偏 倚 的 采样 所 导致 的 人 为 特征 ; 第 三 ， 在 我 们 使 用 数据 集 对 某 一 特征 进行 顶 
浏 或 用 于 选择 、 标 定 预 测 方法 时 ， 如 果 用 于 训练 和 标定 预测 方法 的 训练 集 的 数据 与 
用 于 测试 的 序 询 相关 性 过 于 密切 ， 显 然 会 过 高 估计 预测 方法 的 性 能 。 这 样 得 到 的 性 
能 评估 只 反映 市 该 方法 重 现 特定 输入 的 能 力 ， 而 不 代表 该 方法 具 普遍 性 。 

当 训 练 集中 某 些 类 型 的 序列 样本 数 日 过 多 时 ， 至 少 某 些 机 器 学 习 方 法 会 遇 到 
麻烦 。 尽 管 已 经 有 了 解决 这 一 问题 的 算法 ， 但 是 普 先 对 数据 集 进行 整理 ， 使 低 显 
现 度 (underrepresentation ) 的 序列 得 到 均等 的 机 会 ， 经 常会 获得 更 好 的 效果 。 重 
要 的 是 要 意识 到 低 显现 度 会 同时 在 模型 的 基本 结构 层次 (序列 宛 余 ) 和 分 类 层次 
上 造成 困难 。 例 如 ， 由 于 在 蛋白 质 “ 级 结构 中 ， 无 规 卷 果 比 8 折 县 更 为 常见 ， 
此 在 进行 分 类 时 顶 测 结果 会 偏向 于 无 规 卷 

由 于 这 些 原因 ， 数据 集 需 要 尽量 如 免 包含 过 于 省 切 相 关 的 序列 。 另 一 方面 ， 
对 于 “过 于 密切 相关 ” 太 精 确 的 定义 又 可 能 导致 丢弃 数据 集中 有 价值 的 信息 。 
此 ， 我 们 必须 在 数据 集 的 规模 和 非 宛 余 之 间 寻 求 折 中 。 人 恰当 地 定义 “过 于 密切 
关 ” 很 大 程度 上 依赖 于 所 解决 的 问题 。 然 而 在 实际 曲 作 中 ， 人 们 却 很 少 考虑 到 这 
个 问题 。 人 们 经 常 称 测试 数据 是 从 全 数据 集中 “随机 ”选取 的 ， 暗 示 数 据 是 经 过 
精心 准备 的 ， 而 实际 上 却 完全 没有 进行 降低 数据 宛 余 的 工作 。 而 即使 采用 了 降低 
数据 宛 余 的 方法 ， 在 大 多 数 情况 下 ， 其 做 法 或 者 是 采用 了 多 少 有 些 随意 的 相似 度 
阔 值 ， 或 者 只 是 根据 传统 的 蛋白 质 和 基因 家 族 列 表 ， 在 每 个 家 族 中 选择 一 个 成 员 
从 而 构造 出 一 个 “代表 ”数据 集 。 

另 一 种 蔡 代 策略 是 保留 数据 集中 的 全 部 序列 ， 根 据 序列 的 奇异 程度 赋予 它们 
不 同 的 权重 。 对 于 密切 相关 序列 的 预测 将 得 到 很 低 的 分 值 ， 而 相关 上 距离 较 远 的 序 
列 则 构成 了 预测 的 主体 。 这 一 方法 的 主要 风险 在 于 错误 数据 总 是 与 较 大 的 权重 相 
关联 。 通 常 我 们 可 以 辨别 出 注释 错误 的 序列 ， 至 少 当 误 差 来 自 于 数据 库 中 特征 表 
的 “印刷 ”错误 时 。 但 对 于 赋值 错误 的 特征 所 做 出 的 预测 将 影响 到 对 整个 模型 的 
评价 ， 甚 至 可 能 导 敏 对 项 测 性 能 的 严重 低估 。 不 仅 假 位 点 很 难 预测 ， 而 且 那 些 可 






































































































































6 生物 信息 学 


1.2 


能 在 止 确 注释 中 出 现 的 真 位 点 也 经 常 被 计 为 假 阳性 。 

序列 谱 (sequence profile) 是 一 种 利用 数据 库 宛 余 的 非常 有 效 的 方法 ，[2251 
它 不 仅 与 基于 比 对 的 序列 检索 有 关 ， 而 且 关系 到 机 器 学 习 算法 中 如 何 设计 输入 数 
据 的 表示 方法 。 序 列 谱 描 述 了 通过 多 重 序列 比 对 组 织 起 来 的 -- 族 序列 中 每 个 位 置 
上 氨基 酸 的 变化 。 申 于 序列 谱 中 不 再 包含 关于 单独 序 询 模式 的 信息 ， 其 中 序 庆 变 
化 程序 的 信息 在 数据 库 搜索 小 是 极为 有 用 的 。 丰 类 似 PSI-BLAST 的 程序 中 ， 可 以 
根据 当前 版 本 的 序列 谱 选 出 的 序列 ， 反 复 更 新 序列 谱 。' “1 在 后 续 章 节 中 ， 我 们 
将 讨论 隐 马 氏 模 型 ， 该 模型 以 一 种 非常 灵活 的 方式 贯彻 了 序列 谱 的 概念 。 此 外 ， 
神经 网 络 也 可 以 接受 序列 谱 信 息 作为 输入 数据 。 所 有 这 些 方法 都 利用 了 存储 在 公 
其 数 据 库 中 的 信息 元 余 。 

















基因 组 一 -多 样 性 、 规 模 和 结构 








生物 体 的 基因 组 具有 广泛 的 多 样 性 。 这 种 多 样 性 不 仅 包括 基因 组 的 规模 还 包 
括 基因 组 的 存储 方式 《使 用 单 链 或 者 双 链 的 DNA 或 RNA )。 另 外 ， 有 些 基因 组 是 
线形 结构 ( 如 哺乳 动物 )， 有 些 则 是 封闭 的 环形 结 梅 ( 如 大 部 分 细菌 )。 
细胞 的 基因 组 都 是 由 DNA 组 成 的 , ”1 而 噬菌体 和 病毒 的 基因 组 则 可 能 由 
DNA 或 RNA 组 成 。 在 单 链 的 基因 组 中 ， 信 息 可 以 从 正 向 或 从 反 向 读 取 ， 还 可 以 从 
个 方向 同时 读 到 ， 这 种 情况 下 ， 我 们 称 其 为 双 义 基因 组 (ambisense genome )。 
，“ 正 向 ”定义 为 从 分 子 的 5" 端 到 3' 端 。 在 双 链 的 基因 组 中 ， 只 从 正 向 读 取 信 
(从 每 条 链 的 5 端 到 3; 端 )。 并 不 是 所 有 生物 的 基因 组 都 采用 直接 复制 的 方式 ， 
如 : 道 转录 病毒 的 基因 织 由 RNA 组 成 ， 然 而 在 复制 时 需要 利用 一 种 由 DNA 构 成 
中 间 产 物 。 

个 能 自我 复制 的 微生物 如 哈 菌 体 和 病毒 等 ， 具 有 最 小 的 基因 组 ， 它 们 分 别 利 
用 寄生 的 原核 或 真 核 生物 的 代谢 和 复制 机 制 生存 。1977 年 ， 科 学 家 首先 对 噬菌体 
98X174 基 因 组 中 长 为 5 386bp 的 序列 进行 了 测序 。[*@9 1 这 么 小 的 基因 组 一 般 只 具有 
1 条 染色 体 。 然 而 有 些小 基因 组 却 具 有 多 条 染色 体 ， 例如 在 1996 年 完成 测序 工作 
的 嗜 热 古 细 菌 ( Methanococcus jannaschii )， 其 基因 组 大 小 仅 为 1.74Mbp。 嗜 热 古 
细菌 具有 3 条 染色 体 ， 其 中 1 条 比 另 2 条 大 得 多 。 而 更 大 规模 的 总 长 为 3 310Mbp 的 
入 类 基因 组 则 由 22 条 党 染色 体 和 2 条 性 染色 体 组 成 。 即 使 同 是 灵 长 类 动物 ， 染 色 
体 
细 
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数 日 也 存在 差异 。 如 黑 独 猩 就 有 23 条 常 染 色 体 和 2 条 性 染色 体 ， 因 此 黑猩猩 体 
胞 核 中 总 共有 48 条 染色 体 ， 而 人 类 体 细胞 核 中 只 有 46 条 。 其 余 的 哺乳 动物 具有 
完全 不 同 的 染色 体 数 ， 如 猫 有 38 条 染色 体 ， 狗 的 染色 体 则 有 78 条 之 多 。 由 于 大 部 























分 高 等 生物 的 DNA 具 有 两 份 近似 的 拷贝 


二 倍 体 基因 组 )， 


21% 概 














的 一 份 拷贝 时 ， 也 使 用 DNA 单 倍 体 的 概念 。 
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此 我 们 在 讨论 其 中 


某 些 生物 的 染色 体 是 不 稳定 的 。 例 如 ， 研 究 人 员 发 现 Bacillus cereus 的 染色 体 
由 两 部 分 组 成 ， 较 长 的 一 部 分 (2.4Mbp ) 较为 稳定 ， 而 较 短 的 一 部 分 (1.2Mbp ) 


不 够 稳定 ， 很 容易 插 人 大 达 兆 数量 级 的 长 度 不 











同 的 外 染色 体 元 件 。[54] 这 点 会 给 


测定 这 个 生物 的 基因 组 序列 或 得 到 遗传 图 谱 造 成 很 大 的 困难 。 凡 乎 所 有 基因 组 转 
座 元 件 (transposable element) 都 会 造成 相当 长 的 序列 重 排 或 插入 ， 尽 管 还 没有 
发 现 它们 能 够 改变 染色 体 的 数目 。 一 些 理论 认为 有 很 大 一 部 分 染色 体 的 组 成 具有 
优越 性 ， 可 以 加 快 进化 的 速度 ， 然 而 关于 这 个 问题 月 前 没有 定论 。[481 
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图 1-2 不 同类 型 生物 的 基因 组 大 小 区 间 


注意 图 上 横 轴 的 坐标 是 碱 基数 日 的 对 数值 。 组 内 的 差异 一 般 者 大 于 1 个 数量 级 。 哺 乳 动物 基因 组 大 小 
的 区 间 非 常 狭小 ， 是 这 一 个 例外 。 一 种 很 自然 的 想法 是 图 的 纵 轴 代 表 生 物 的 复杂 性 ， 但 是 天 部 分 情况 下 纵 
轴 并 不 直接 代表 基 闪 库 的 大 小 。 处 于 图 上 方 的 许多 生物 ， 如 哺乳 动物 、 鱼 类 和 植物 ， 它 们 的 基因 数目 相差 
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一 个 有 趣 的 现象 是 基因 组 大 小 的 分 布 














在 某 种 程度 上 分 隔 成 一 些 互 不 





要 的 











区 问 。 图 1-2 表 明 ， 病 毒 的 基因 组 大 小 在 3.5SKbp~280Kbp 之 间 ， 细 菌 的 基因 组 则 
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在 0.5Kbp~10Mbp 之 间 ， 真 菌 是 10Kbp~50MbP， 植 物 的 基 








而 吨 乳 动物 的 基 








组 规模 则 位 于 1Gb 附 近 的 一 











组 最 小 在 530Mbp 左 布 ， 
PRE AY TELE 以 对 数 尺度 考虑 )。 


牛 物体 具有 不 辐 的 生命 形式 ， 如 非 细胞 形式 病毒 )， 单 细胞 形式 〈 细 茵 )， 不 具 


有 复杂 的 细胞 间 道 信 的 多 细胞 形式 ( 真菌 )， 具有 许多 细 
BX (MFL 


等 分 化 的 多 细胞 开 


饱和 植物 )。 





牛 命 形 式 所 必需 的 基 
{3001 细胞 “通信 员 ” 
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型 的 例子 是 荧光 素 酶 的 基 
然 ， 与 高 等 生物 的 信号 转 导 相 H 
大 部 分 类 别 中 ， 


外 【如 哺乳 动物 、 


内 于 能 通过 染色 体 光学 作 
以 得 到 人 类 基因 组 规 
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库 的 规模 。 近 几 年 的 研 
能 在 分 子 间 往 返 ， 实 现 种 群 规模 的 控制 。 
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胞 间 信 号 转 导 系 统 的 高 
图 中 这 种 阶梯 形 结构 反映 了 维持 不 同 
究 表 明 甚 至 细 茵 也 能 通过 化 学 信号 
一 个 典 




















需要 较为 有 限 的 基因 库 。 
在 纂 核 生物 中 ， 有 一 些 类 别 则 是 例 








鸟 类 和 改行 动物 )， 其 基 











组 规模 局 限 在 一 个 较 窄 的 范围 。: 6- 














变化 。 





00047 . 


早 在 1968 年 ， 研 














图 〈optical mapping ) 等 方法 估计 未 测 距 部 分 的 
模 较 为 精确 的 估计 
序 剑 总 其 大 概 和 包含 3 310 004 815 个 碱 基 对 ， 这 个 估计 大 概 在 一 段 
内 不 会 有 太 大 的 3 
类 生物 细胞 
BEAR 与 其 遗传 和 机 体 复杂 性 桩 
和 蛋 目 质 编码 所 需 DNA 含 量 的 50 
规模 却 会 有 很 大 的 差别 。 
组 规模 却 非常 不 同 。 
尤其 是 Tetraodontidae 家 族 的 基 


P 的 DNA 含 且 相 差 最 大 可 以 达到 百 万 倍 。 细 萝 基 
关 ， 而 某 些 真 核 生物 的 DNA 含 量 甚 至 会 
161 分子 基本 构造 大 致 ’ 
消 椎 动物 有 许多 相似 的 生命 机 能 ， 
究 人 员 已 经 发 现 包括 河豚 在 内 的 某 些 鱼 类 ， 
组 规模 很 小 。 


























行为 上 显然 没有 人 类 复杂 。026 


表 1-1 


， 而 人 类 3 310Mbp 的 基 
组 仅 为 最 简单 的 秀丽 线虫 ( 100Mpp ) 的 4 
组 的 118。 单 个 细胞 具有 最 大 DNA 含 量 的 将 椎 动物 是 两 栖 动 物 ， 
组 大 小 跨度 很 大 ， 从 700Mbp~80 000Mbp。 尽 管 如 此 ， 





KE, R 


。 表 1-2 列 出 了 人 类 24 条 染色 体 的 估计 








组 的 规 
Bi se 
同 的 生物 ， 其 基 
然而 它们 的 基因 




















125492.46.534526] JT E JE D A 的 单 倍 


组 差不多 是 它 的 























它们 在 结构 和 


不 同 进化 谱系 生物 基因 的 大 概 数目 和 基因 组 规模 





物 种 


基因 组 规模 





噬菌体 MS2 
MEETA 
花椰菜 花 叶 病 毒 
HIV-2 病 毒 
RB 


基因 数目 
4 0.003 569 

270 0.168 899 
8 0.008 016 

9 0.009 671 
260 0.191 737 
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CER) 
分 组 物 种 基因 数目 基因 组 规模 
细菌 生 和 将 道 支原体 473 0.58 
肺炎 支原体 716 0.82 
哮 血 流感 什 菌 1760 1.83 
枯草 杆菌 3700 4.2 
大 肠 杆 菌 4100 47 
黄 粘液 球菌 8000 9.45 
me 嗜 热 古 细菌 1735 1.74 
真菌 了 酿酒 酵母 5800 12.1 
Protoctista Cyanidioschyzon merolae 5000 11.7 
Oxytricha similis 12.000 600 
节肢 动物 门 KERHA 15 000 180 
线虫 网 秀丽 线虫 19 000 100 
软体 动物 门 Loligo pealii 20-30 000 2700 
植物 界 烟草 20-30 000 4 500 
拟 南 并 25 500 125 
HRA Giona intestinalis N 165 
河豚 30-40 000 400 
Danio rerio N 1 900 
DRE 30-40 000 3300 
BA 30-40 000 3310 





基因 组 大小 以 Mbp 为 单位 。“N” 代 表 没有 确切 值 。 部 分 数据 来 自 参考 文献 [ 390 ` 及 其 中 提 到 的 参考 
文献 《根据 最 新 的 估计 重新 计算 )， 其 余 的 来 白 . -系列 网 络 资源 、 论 文 和 书籍 。 


表 1-2 ”人 类 基因 组 序列 24 条 染色 体 的 近似 大 小 








人 类 染色 体 大 小 

1 号 染色 体 282 193 664 
2 号 染色 体 253 256 583 
3 号 染色 体 227 524 578 
4 号 染色 体 202 328 347 
SIRER 203 085 532 
6 寻 染 色 体 182 415 242 
7 屿 染色 体 166 623 906 
8 号 染色 体 152 776 421 
SSR 142 271 444 
10S Bk 145 589 288 
11 号 染色 体 150 783 553 
1243 He ete 144 282 489 


Bgt 119 744 898 
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(BR) 

人 类 染色 体 大 小 

14 生 染色 体 106 953 321 
15 号 染色 体 101 380 521 
16 号 染色 体 104 298 331 
17 号 染色 体 89 504 553 
18 号 染色 体 86 677 548 
19 号 染色 体 74 962 845 
20 号 染色 体 66 668 005 
21 时 染色 体 44 907 570 
22 号 染色 体 47 662 662 
Xx 染色 体 162 599 930 
Y 染 色 体 51 513 584 





值得 注意 的 是 其 中 22 号 染色 体 的 大 小 排 位 与 染色 体 的 编号 并 不 一 致 。 数 据 来 自 Ensembl 
{ www.ensembl.org ) 利 Santa Cruz ( genome.ucsc.edu ) 网 站 。 人 类 基因 组 序列 总 共 大 概 包 括 3 310 004 815 
个 磊 革 对， 这 个 估计 大 概 在 一 段 时 间 内 变化 不 大 。 


1.2.1 人 类 基因 组 和 其 他 基因 组 的 基因 容量 


生物 体 全 基因 组 序列 的 不 同 部 分 包含 有 基因 。 基 因 这 个 概念 道 常 定义 为 可 表 
达 单 元 的 一 个 或 多 个 序列 片段 。“ 基 因 ” 这 个 单词 (与 “基因 型 ”( genetype ) 和 
“表现 型 ”( phenotype ) 这 些 概念 一 起 ) 由 丹麦 遗传 学 家 威廉 AE (Wilhelm 
Johannsen ) 于 1909 年 创造 ， 这 比 人 们 详细 了 解 DNA 的 物质 基础 早 得 多 。 

基因 可 以 编码 蛋白质 产物 ,或 者 编码 多 种 RNA 分 子 中 的 一 种 ， 这 些 RNA 分 子 
对 于 细胞 处 理 遗 传 物质 和 正确 执行 功能 是 必需 的 。 细 胞 质 内 的 mRNA 序列 在 制造 
相同 蛋白 质 的 多 份 拷贝 时 ， 可 以 作为 复制 模板 。 编 码 其 他 RNA 分 子 的 基因 必须 转 
孙 一 定 的 数量 。 不 直接 导致 基因 产物 的 序列 片段 通常 称 为 非 编 码 区 。 非 编码 区 可 
以 赵 基 因 的 一 部 分 ， 也 可 以 是 基因 的 调控 元 件 或 者 间 插 序 别 ， 后 者 打 断 了 直接 纺 
码 蛋 白质 或 RNA 的 DNA 序 列 。 机 器 学 习 技 术 对 于 解释 尚未 注释 的 基因 组 的 DNA 
序列 以 及 辨别 具有 不 同 功 能 的 序列 之 类 的 困难 任务 ， 是 极为 理想 的 。 

表 1-1 是 当前 对 于 不 同 进 化 谱系 (evolutionary lineage ) 生物 的 基因 的 大 致 数 
目 和 基因 组 大 小 的 预测 。 对 于 那些 已 经 进行 全 基因 组 序列 测序 的 生物 ， 这 些 数目 
当然 是 非常 精确 的 ;而 对 于 其 余生 物 ， 我 们 只 能 得 到 基因 密度 的 粗略 估计 。 像 细 
菌 这 样 的 生物 ， 其 基因 组 大 小 是 一 个 很 强 的 生长 抑制 因素 ， 所 以 编码 区 (APE 
白质 和 RNA ) 儿 乎 覆盖 了 整个 基因 组 ; 而 对 于 其 他 生长 缓慢 的 生物 ， 编 码 区 仅 占 
了 全 基因 组 的 1%~2%。 由 于 计算 方法 在 进行 基因 发 现时 需要 利用 基因 密度 ， 这 意 
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味 着 基因 密度 常会 对 算法 的 精度 产生 很 大 影响 。 基 因 组 的 非 编码 区 通常 包括 许多 
伪 基 因 (pseudo-gene ) 以 及 其 他 序列 ， 它 们 在 用 算法 进行 全 基因 组 扫描 时 会 呈 假 
阳性 状态 。 















































表 1-3 20 个 测序 完毕 的 常见 生物 的 碱 基数 目 ( 2001 年 4 月 ，GenBank 的 第 123 版 ) 








物 种 单 倍 体 基因 组 规模 碱 基数 目 记录 数 
智 人 3 310 000 000 7 387 490 518 4 544 962 
DRA 3 300 000 000 1527 228 639 2793 543 
RERA 180 000 000 502 655 942 167 687 
W 125 000 000 249 689 164 183 987 
ETEENI 100 000 000 204 396 881 114 744 
Oryza sativa 400 000 000 171 870 798 161411 
KACHE 350 000 000 165 542 107 189 000 
AR 2 900 000 000 114 331 466 229 838 
kg 3 600 000 000 76 700 774 168 469 
Giycine max 1 115 000 000 73 450 470 167 090 
平头 首 蒂 400 000 000 60 606 228 120 670 
Eh 655 000 000 56 462 749 109 913 
AER 35 000 000 50723 464 91 360 
WEA 5 000 000 000 49 770 458 70317 
= RHC 12 000 000 49 431 105 56451 
KARE 900 000 000 47633 412 77 554 
Danio rerio 1 900 000 000 47 584911 93 141 
ME 3 100 000 000 46 517 145 92 041 
玉米 5 000 000 000 45 978 459 98 818 
ARKE 20 000 000 44 552 032 49 969 





由 于 菌株 的 不 同 或 者 纯粹 的 宛 余 ， 某 些 生物 的 序列 长 度 远 比 所 列 出 的 基因 组 大 小 更 大 。 





最 令 人 惊奇 的 结果 来 自 于 对 于 人 类 基因 组 两 个 不 同 版 本 数据 OO) 的 分 析 ， 
科学 家 发 现 其 中 所 包含 的 基因 数量 仅 在 30 000 这 个 数量 级 。 序 列 的 初步 分 析 仅 估计 
出 30 000~40 000 个 基因 。 当 然 ， 这 并 非 完全 出 乎 意料 ， 因 为 果 蝇 的 基因 数目 ( 
14 000) 也 出 人 意料 的 少 。! 5321 但 是 人 类 的 基 数目 不 足 简单 的 秀丽 线虫 的 2 倍 ， 
如 何 实现 其 复杂 的 生物 功能 ? 答案 部 分 来 自 于 这 些 数 目 有 限 的 基因 的 可 变 剪接 以 
及 其 他 实现 基因 多 功能 化 的 方式 。 这 个 领域 过 去 在 基础 研究 中 没有 得 到 应 有 的 重 
视 ， 而 人 类 基因 组 的 研究 成 果 发 布 清楚 表明 了 我 们 过 去 的 无 知 ; 仅 在 人 类 基因 组 
数据 公布 1 年 前 ， 人 们 还 估计 其 中 大 约 有 100 000~120 000 个 基因 。[3611 对 于 一 个 
复杂 生物 ， 基 因 多 功能 化 使 基因 组 中 许多 基因 都 可 以 制造 几 个 不 同 的 转录 本 ， 而 
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每 个 转 杀 本 还 可 以 产生 多 种 蛋白 质变 体 。 由 于 遗传 物质 的 细胞 处 理 过 程 在 调控 方 
面 远 比 原先 设想 的 复杂 ， 人 们 更 为 迫切 地 需要 能 够 对 这 些 过 程 建 模 的 更 加 高 级 的 


生物 信息 学 方法 。 








一 个 尚未 解 决 的 重大 问题 恋 疑 是 基因 库 规 模 微小 的 增加 如 何 导 致 生物 复杂 性 




















的 显著 提高 。 秀 丽 线虫 的 基因 数目 和 人 类 几乎 莽 不 多 这 个 事实 
整 细胞 和 完整 生物 体 作 为 研究 对 象 的 时 代 ， 我 们 需要 了 解 基 





因 如 能 以 什么 方式 决定 生物 的 复杂 性 。 











令 人 可 气 。 在 以 完 











组 中 国定 数 日 的 基 








法 国生 物 学 家 让 - 米 歇 尔 ， 网 拉 旧 里 (Jean-Michel Claverie) 对 十 生物 复杂 


性 K 利 基因 组 中 基因 数 月 N 之 间 的 关系 进行 了 一 个 有 趣 的 “个 人 ”估计 。! O N 
映射 成 K 的 函数 了 原则 上 可 以 是 线性 函数 (~N )、 多 项 式 函 数 ( K~N" )、 指 数 函 











数 (K~a”) 利 阶乘 函数 (K-N!) E. HERA 
表达 多 样 性 的 能 力 ， 也 就 是 其 所 能 实现 的 理论 ] 
于 最 简单 的 模型 ， 假 定 基 因 只 有 激活 或 者 失 活 《“ 开 ”或 者 “ 关 ”) 两 种 状态 ， 具 
如 果 我 们 把 人 类 和 秀丽 线虫 进行 比 

















有 N 个 基因 的 基因 组 总 共 可 能 编码 2* 种 状态 。 
较 ， 我 们 的 复杂 程度 将 是 秀明 线虫 的 


230 0004720 000 a 4 g3 000 





fi E E E E A PE PA ER RO E p 











LD SR AER AS EAC A A 











(1.1) 


倍 ， 这 点 增强 了 ( 也 许 是 重建 了 ) 我 们 关于 人 类 优越 性 的 主观 看 法 。 在 这 个 简单 








模型 由， 指数 值 显然 必须 下 谢 ， 因 为 基因 宛 余 或 共 调控 使 基 

















的 表达 相互 并 不 独 














立 ， 而 且 许多 状态 实际 上 是 致命 的 。 另 一 方面 ， 基 











表达 并 不 是 简单 的 开 / 关 ， 


而 是 以 一 种 更 其 层次 性 的 方式 进行 调控 。 一 个 非常 简单 的 数学 模型 可 以 说 明 为 何 














基因 数目 的 略微 增加 可 以 导致 复杂 性 的 显著 提高 ， 
来 的 N 值 悖 论 的 一 种 方法 。 这 个 基于 基因 表达 模式 的 模型 看 | 
然 代 表 了 对 于 生物 的 “系统 ”特性 进行 定量 化 的 一 利 




















统 的 还 原 论 方法 去 理解 。 ?i 


另外 一 个 上 分 基础 而 且 在 很 大 程度 上 还 没有 解决 的 问 





并 提出 了 解决 全 基因 组 测序 带 

















上 去 非常 简单 ， 它 仍 





尝试 ， 尽 管 其 构成 只 能 从 传 


题 是 ， 为 什么 在 许多 高 











等 生物 的 基因 组 中 ， 编 码 蛋 白质 的 部 分 非常 有 限 。 在 人 类 基 
AN 使 用 较为 悲观 的 估计 (26 000) 或 是 乐观 的 估计 (40 000 )， 编 码 
区 域 所 占 的 比例 都 很 小 。!52 根据 这 两 个 估计 ， 人 类 基因 4 
(1.4%) 是 编码 区 域 。 相 应 地 ， 内 含 子 覆盖 了 25% (36% ) 











们 对 基因 数 











剩余 部 分 占据 了 75% ( 64% )。 人 们 常 认为 基 











组 序列 中 ,无 论 我 




















BERT 


序列 似乎 仅 有 1.1% 





的 区 域 ， 而 基因 之 间 的 
L 个 百分点 的 区 域 ， 这 显 




















然 是 不 对 的 ， 因 为 人 类 的 内 含 子 具 有 较 大 的 了 


FHKE., Bae 








基因 覆盖 了 人 类 基因 组 超过 1/3 的 区 域 。 




















数 为 40 OOOH IT, 











对 于 


特定 生物 ， 其 尚 木 复 制 的 单 倍 体 基 
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组 中 核 DNA 的 质量 称 为 C 值 ， 因 为 














较 窄 的 生物 








在 限定 范 








限制 ， 该 成 本 超过 仅 在 核 


h， 这 个 数值 是 一 个 
种 的 不 同 最 多 可 以 相差 80 000 倍 ， 然 而 这 与 生 : 
日 之 间 却 没有 什么 关系 ，[42551 这 种 现象 称 为 

有 人 提出 ， 非 编码 的 DNA 序 列 在 核 内 某 
P 起 结 父 支撑 作用 





常数 。 真 核 生物 基因 组 的 C 值 由 
物 复杂 性 或 者 编码 蛋白 质 的 基 

cipe. 8) 

组 中 的 累积 受 其 复制 所 需 的 成 本 的 

所 需 成 本 。 “42 在 许多 年 新 人 们 已 经 知 


于 物 
数 






































因 只 是 按 比 例 增 加 拷贝 数目 
力学 过 程 会 非常 快 。 在 复 性 实验 中 ， 导 
链 之 间 有 共有 充分 的 互补 ， 它 们 会 重新 结 
表明 大 容 明 基因 组 中 的 外 显 子 之 全 
中 发 现 了 上- - 些 大 小 相差 卡 常 离谱 的 基因 























道外 显 子 之 外 的 DNA 序 列 通常 并 不 增加 基 
， 则 DNA 复 性 


合 


的 DNA 不 太 可 能 编码 基因 。[ "1 研究 人 员 在 植物 
于 








的 数量 。 如 果 大 容量 的 基因 组 中 每 个 基 
Ea ( DNA renaturation experiment ) 的 动 
加 热 失 活 的 DNA 样 本 进行 冷却 ， 如 果 DNA 
。 而 实验 显示 这 个 动力 学 过 程 相 当 慢 ,这 





， 而 现在 有 明显 的 证 据 表 明基 因 组 大 小 和 








气候 之 间 存 在 - - 定 的 关联 ,45 而 日 基 


组 大 小 的 明显 差异 还 必须 从 分 子 和 进化 机 





制 的 角度 进行 解释 。 有 人 提出 ， 无 论 如 伯 


因 组 的 “质量 ”及 效率 。 





， 基 因 组 的 信息 总 量 并 木 能 很 好 地 提示 基 


这 种 情况 也 许 并 没有 看 上 去 的 闻 么 奇怪 。 实 际 F， 与 人 类 之 问 的 交流 相似 ， 


消息 长 度 并 不 能 很 好 地 代表 所 交换 信 
问 的 通信 中 ， 简 短 的 交流 可 以 非常 有 
节 ， 内 以 非常 紧凑 的 形式 留 下 要 点 。 





的 质量 。 例 如 ， 在 科学 文献 或 者 合作 者 之 


效 。 许 多 电子 邮件 省 略 了 很 大 一 部 分 繁 文 钴 
我 们 所 知 的 1 





世界 上 最 短 的 信件 是 裤 端 有 效 的 : 


1862 年 《 莫 惨 此 界 》 出 版 之 后 ， 维 名 多 ， 两 果 出 去 度假 ， 但 是 他 非常 渴望 知道 书 


的 销量 如 何 。 他 给 出 版 商 写 了 一 封 信 ， 
PILE “o N 
至 今 仍然 很 受 欢迎 ， 共 所 改编 的 音乐 剧 


图 














行 外 推 。 如 果 发 明 出 更 新 的 测序 方法 ， 
种 增长 速度 可 能 停滞 不 前 ， 因 为 一 些 
测序 依然 化 费 巨 大 ， 投 资 机 构 可 能 会 
据 增 长 率 。 

除了 存储 在 GenBank 








上 面 仅仅 是 一 个 “? "。 出 版 商 回 信 ， 也 


有 果 看 了 以 后 就 奢 无 顾虑 地 继续 他 的 度假 。 那 本 书 成 了 畅 销 书 ， 


和 电影 也 是 如 此 。 


1-3 显 示 出 GenBank 数 据 库 ("9 规模 的 指数 增长 状况 。 表 1_3 列 出 了 20 
个 完成 测序 的 常见 生物 。 由 于 儿 年 来 这 种 数据 一 直 以 相同 的 速度 指数 增长 ， 
此 在 新 的 、 更 快 的 芯 至 更 便宜 的 测序 技术 出 现 以 前 ， 我 们 很 容易 在 这 张 














上 进 
这 种 增长 的 速度 大 概 会 加 快 。 否 则 ， 这 
哺乳 动物 基因 组 已 经 测序 完毕 。 如 果 那 时 
了 资源 转向 其 他 科研 领域 ， 导 致 更 低 的 数 

















可 供 公众 利用 的 数据 外 ， 许 多 公司 和 其 他 机 构 的 私 


有 数据 也 以 很 快 的 速度 增加 ， 央 此 很 难 估计 当前 人 类 已 知 的 序列 数据 的 总 数 。 





今 大， 在 一 些 最 大 的 公司 ， 


FEAT ETI 


LE POW FL AER AE LB E PH 7R E R 
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进行 测序 ， 对 原核 生物 全 某 因 组 的 原始 测序 可 以 在 一 天 之 内 完成 。 这 些 数据 的 
一 部 分 将 最 终 存放 在 公共 数据 库 ， 而 其 余 的 依然 保留 在 私有 数据 库 中 。 对 于 所 
有 生物 体 而 言 ， 提 高 测序 的 速度 十 分 重要 ， 这 并 不 仅仅 因为 序列 数据 的 产生 是 
与 专利 相关 的 。 


根据 2 
记录 ， 共 1 





























GenBank 数 据 库 的 规模 增长 
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1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 
年 份 
图 1-3 ”1983 年 至 2001 年 期 间 ，GenBank 数 据 库 规模 的 指数 形式 增长 


000 年 至 2001 年 的 增长 情况 ， 信 增 时 间 为 10 个 月 左右 。GenBank 第 123 版 的 完整 大 小 为 11 545 572 条 
2418 544 O3 TREM 【平均 长 度 为 1 076 )。 现 在 这 个 数据 库 每 天 的 增长 量 超过 11 000 000 个 碱 基 。 


13 ”看 白质 和 看 白质 组 


1.3.1 


从 基因 组 到 蛋白 质 组 


在 蛋白 质 层次 上 ， 与 全 基因 组 (complete genome ) 的 大 规模 分 析 相对 应 的 研 
究 称 为 蛋白 质 组 (proteome ) 分 析 。[2%9431 蛋 白质 组 包括 一 组 染色 体 所 有 蛋白 质 


的 表达 。 


在 多 细胞 生物 中 ,所 表达 的 蛋白 质 根据 细胞 类 型 而 有 所 差异 。 蛋 白质 表 

















达 也 会 随时 间 变 化 ， 这 是 由 于 基因 调控 会 从 胚胎 阶段 开始 随 着 发 育 阶段 的 不 同 而 
不 断 改变 。 蛋 白质 组 的 研究 对 象 是 特定 基因 组 中 的 基因 所 产生 的 蛋白 质 。 
“基因 组 ”这 个 术语 是 由 德国 植物 学 家 汉 斯 ， 温 克 勒 (Hans Winkler) 在 第 一 次 
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世界 大 战 前 创造 的 ，[5561 而 “蛋白 质 组 ” 青 到 最 近 才 出 现在 科学 文献 中 ， 由 马 
TE RIEN (Marc Wilkins ) 和 基 思 ' 威廉 斯 (Keith Williams ) 在 1994 年 首次 提 
出 [559 
蛋白 质 组 分 析 的 内 容 不 仅 包括 编码 蛋白 质 的 基因 的 序列 、 位 置 和 功能 ， 更 注 
重 于 以 转录 所 修饰 形式 存在 的 每 一 个 蛋白 质 的 准确 生化 状态 。 许 多 例子 表明 ， 可 
以 应 用 机 器 学 习 技术 成 功 地 预测 蛋白 质 的 活性 和 功能 。 

蛋白 质 通常 需要 经 历 一 系列 的 修饰 以 改变 其 活性 。 例 如 ， 某 些 特定 的 氨基 酸 
会 通过 共 价 键 ( 或 者 非 共 价 键 ) 与 碳水 化 合 物 相 连 ， 这 些 氨基 酸 称 为 糖 基 化 位 点 
(glycosylation site )。 有 些 氨基 酸 则 会 经 历 磷 酸化 (phosphorylation )， 即 磷酸 
(phosphate group ) 通过 这 些 氨基 酸 与 多 肽 链 相 连 。 在 以 上 两 种 情况 中 ， 和 蛋白 质 通 
过 特定 的 一 系列 酶 催化 发 生 改 变 ， 它 们 对 于 蛋白 质 执行 功能 都 是 必需 的 。 还 存在 
其 他 类 型 的 转录 后 修饰 ， 例 如 分 泌 性 蛋白 转 座 通过 细胞 膜 时 ， 需 要 加 入 脂肪 酸 和 
剪 切 N 端 的 信号 肽 。 和 蛋白 质 的 这 些 修饰 作用 ， 对 于 数据 驱动 的 预测 研究 很 有 意义 ， 
为 在 公共 数据 库 中 ， 存 在 很 大 一 部 分 经 实验 验证 的 功能 位 点 和 序列 。 


1.3.2 ”蛋白 质 长 度 分 布 


生物 在 进化 过 程 中 ， 选 择 那些 能 够 在 水 或 脂 环 境 中 保持 稳定 构象 的 多 肽 链 ， 
这 些 多 肤 链 在 这 样 的 环境 下 执行 功能 。 一 个 重要 的 事实 是 ， 氨 基 酸 序列 中 相距 较 
远 的 性 基 的 相互 作用 在 蛋白 质 折 秋 中 起 关键 作用 。 这 种 长 程 效应 也 正 是 利用 计算 
方法 预测 蛋白 质 折 琶 的 主要 障 但 。 因 此 ， 这 个 方面 的 研究 主要 还 是 集中 在 局 部 结 
构 预 测 。 用 于 与 基于 分 子 作用 力 和 动力 学 方程 的 计算 方法 一 样 ， 预 测 和 分 类 方法 
也 主要 用 于 分 析 局 部 结构 。 

从 伊 卡 斯 (《Ycas ) MAR (Gamow) 的 早期 研究 开始 ， 统计 分 析 在 蛋白 质 序 
列 和 进化 研究 中 一 直 起 着 很 重要 的 作用 。[2%57555] 以 入 工作 主要 集中 在 具有 特定 
结构 或 者 功能 的 局 域 非 随机 模式 的 统计 关系 ， 现 在 随 半数 据 的 大 量 涌现 ， 已 经 可 
以 得 到 关于 全 基因 组 的 可 靠 的 全 局 统计 结果 。 

焦 白 质 序列 数据 既 可 以 在 不 同 物种 中 进行 分 析 ， 也 可 以 从 特定 生物 体 的 角度 
加 以 研究 。 例 如 ， 我 们 完全 可 以 确定 可 能 的 最 大 蛋白 质 组 中 多 肘 链 的 长 度 分 布 。 
这 里 的 关键 问题 是 我 们 今天 所 看 到 的 蛋白 质 序列 是 否 代表 了 早期 序列 的 一 些 主要 
特征 。 那 些 早期 序列 的 组 成 基本 是 随机 的 ， 经 过 漫长 的 进化 才 形成 了 我 们 现在 所 
看 到 的 序列 形式 。 55] 另 一 种 可 能 性 则 是 这 些 序列 在 早先 产生 的 时 候 ， 其 组 成 就 
具有 相当 大 的 偏 倚 。 

利用 可 溶性 蛋白 质 当前 的 氨基 酸 组 成 ， 我 们 可 以 构造 出 规模 为 101" 数 量 级 的 ， 
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长 度 为 100 个 氨基 酸 的 “自然 ”序列 。 白 然 界 只 使 用 了 这 些 可 能 序列 中 很 小 的 一 部 
分 。 RE (White) 和 雅 各 布 斯 (Jacobs ) 提出 过 一 种 “随机 起 源 假设 "， 该 假设 认 
为 这 些 蛋 白质 来 源 于 由 某 些 简单 规则 指导 的 随机 过 程 。 ss55] 形式 上 这 种 理论 可 以 
在 检验 蛋白 质 序列 随机 性 的 不 同方 面 时 作为 无 效 假设 ， 尤 其 是 可 用 二 考察 实际 的 重 
白质 序列 在 多 大 程度 上 与 随机 序列 相 区 分 。 

关于 蛋白 质 一 级 结构 在 较 长 区 域内 存在 一 定 规律 性 的 证 据 也 越 来 越 多 。 令 人 
惊奇 的 是 ， 甚 至 在 序列 组 成 这 个 层次 以 下 ， 还 存在 某 种 与 物种 相关 的 规律 性 ; 原 
核 生物 蛋白 质 的 典型 长 度 与 真 核 生 物 蛋 白质 的 典型 长度 完全 不 同 。'“ 真 核 生物 
蛋白 质 折 肥 成 紧 次 结构 的 可 能 性 随 着 序列 长 度 的 增加 而 增加 比 原核 生物 更 快 ， 这 
与 上 述 现象 可 能 有 联系 。1551 有 人 认为 我 们 所 观察 到 的 序列 长 度 的 差异 可 以 用 二 
硫 键 集中 程度 不 同 及 其 对 于 最 优 结 构 域 大 小 的 影响 加 以 解释 。-3041 

大 们 还 研究 了 其 他 一 些 类 型 的 较 长 区 域 范围 内 的 规律 性 ， 例 如 ， 在 8 折 
g 8455702685) 和 紧密 接触 对 (close contact pair ) 77") 中 对 于 某 些 相同 或 相似 模 
式 的 偏好 ， 堆 积 密度 (packing density) 的 长 程 和 短程 由 期 性 ,0 氨基 酸 序 列 
中 的 突变 古 否 存 长 程 上 显著 相关 等 。[5054852141 

原核 生物 与 真 核 生 物 全 基因 组 序列 的 出 现 ， 使 我 们 可 以 在 比较 全 基因 组 时 检 
验 早期 基于 一 些 不 完整 或 元 余 数据 所 做 的 观察 是 否 正确 。 观 察 妈 的 一 个 很 令 大 惊 
讶 的 现象 是 ， 蛋 白质 似乎 由 不 同 的 序列 单元 构成 ， 真 核 生 物 中 这 些 序列 单元 的 特 
征 长 度 约 为 125 个 氨基 酸 ， 丰 原核 生物 中 则 为 150 个 氨基 酸 。'%] 这 表明 重 白 质 序 
列 组 织 可 能 具有 某 种 内 在 的 规律 ， 这 种 规律 比 序列 自身 更 具 研 究 的 基础 性 。 如 果 
这 种 组 织 规律 确定 是 通过 进化 产生 的 ， 那 么 多 肽 链 的 长 度 分 布 可 能 会 取代 传统 上 
所 认为 的 蛋白 质 的 “一 级 ”结构 成 为 研究 基础 。 

1995 年 ， 第 一 个 在 白 然 环境 下 生存 的 生物 体 一 一 原核 生物 哮 血 流感 杆菌 
{ Haemophilus influenzae ) 的 完整 基 内 组 公布 ， 供 研究 人 员 分 析 。['31 这 个 
环形 的 基因 组 大 小 为 1 830 137bp， 包 括 1 743 个 预测 的 蛋白 质 编码 区 以 及 76 个 纺 
码 RNA 分 子 的 基因 。 图 1-4 给 出 了 这 个 微生物 所 有 的 预测 的 蛋白 质 长 度 分 布 。 为 
了 进行 比较 ， 图 中 还 给 出 了 生殖 道 支原体 (Mycoplasma genitalium ) 全 基因 组 中 
大 约 468 个 蛋白 质 的 长 度 分 布 ，- ”1 以 及 暑热 古 细菌 全 基因 组 中 大 约 1 735 个 顶 测 
的 蛋白 质 编码 区 的 长 度 分 布 。[15 

通过 这 些 原核 生物 长 度 分 布 与 真 核 生 物 酿 酒 酵 母 ( Saccharomyces cerevisiae } 
(图 1-4) KIER, AL RE Os CH URE A) 与 真 核 生物 〈 酿酒 酵母 ) 
分 布 的 峰值 显然 位 于 不 同 的 区 间 : 分 别 是 140~160 和 100-~120。 

结合 宛 余 性 约 简 与 谱 分 析 可 以 得 出 结论 : 很 大 一 部 分 真 核 生物 的 蛋 魏 质 长 度 分 






















































































恒 白 质数 目 


蛋白 质数 自 


布 峰值 位 于 125 个 氨基 酸 , H 


哺 血 流感 杆 获 的 预测 编码 区 
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生殖 道 支原体 的 预测 编码 区 
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图 1-4 ”全 基因 组 中 预测 的 蛋白 质 编码 区 的 长 度 分 布 


A 吐血 流感 杆菌 ， 在 1 743 个 区 域 中 ， 长 度 为 140~160 的 氨基 酸 链 出 现 得 最 为 频繁 。B. 生殖 道 支原体 ， 
共有 468 个 区 域 ， 首 选 的 氨基 酸 链 长 度 为 120~140 或 280~300，C. 嗜 热 古 细菌 具有 1 735 个 区 域 ， 长 度 为 
140-~160 的 氨基 酸 链 出 现 得 最 多 。D-. 酿酒 酵母 ， 企 6 200 个 区 域 中 ， 长 度 为 100~120 的 氨基 酸 链 出 现 得 最 为 频 
繁 ， 其 次 是 120~140 的 区 间 。 根 据 1997 年 《自然 》 杂 志 ( Narure ) 上 -篇 通讯 ， 柄 酒 本 母 中 长 度 为 100~120 的 
序列 很 可 能 是 一 些 惠 假 样本 ) 多 得 超过 预计 。!l 





F 有 其 分 布 最 示 出 以 这 个 尺寸 为 周期 的 周期 分 布 。' 1 图 





1-4D 也 清楚 地 显示 出 长 度 分 布 较 罚 的 第 二 个 和 第 三 个 峰值 位 于 210 和 330 个 氨基 酸 


左右 。 这 里 的 分 布 




















约 简 。 


有 趣 的 图 ， 嗜 热 古 细 凋 的 分 布 曲线 位 于 嗜 血 流感 杆菌 和 酿酒 酵母 的 分 布 | 
之 间 。 这 和 一 个 新 提出 的 理论 相 吻合 ， 这 种 理论 认为 古生物 界 的 物 利 


线 是 基于 这 个 生物 所 有 的 可 








收 记 质数 据 记录 ， 并 没有 经 过 元 余 性 











Hee 
与 真 核 生 物 











具有 许多 共同 点 ， 而 并 非 原核 生物 界 中 一 种 特殊 类 型 的 细菌 。[56% 549] 这 表明 全 
体 始 祖 生 物 决 定 了 细 昔 、 古 绸 将 和 真 核 生 物 中 的 保守 特征 ， 


原核 生物 { 没有 细胞 核 ) + 


(1.2) 
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古生物 分 类 问题 已 经 在 一 些 教科 
公共 数据 库 

了 SWISS-PROT 蛋 白质 序列 数据 库 (71) 4 

图 1-5 我 们 还 可 以 着 到 数据 库 规模 的 变 








也 以 指数 速度 增长 ， 不 过 相对 慢 得 多 。 这 说 明 对 于 预测 上 


书 和 序列 数据 库 叶 
经 过 注释 的 蛋白 质 一 级 结构 数据 也 增加 得 很 迅速 。 表 1-4 显 示 





造成 了 生物 分 类 的 混淆 。!5227 





一 些 重要 生物 的 蛋白 质 的 序列 数 虽 。 从 
上 。 与 GenBank 数 据 库 一 样 ， 这 个 数据 库 
6 的 基因 给 出 具有 生物 学 




















意义 的 阐述 ， 这 项 研究 进展 很 缓慢 。 对 了 
释 尤 其 需要 新 的 技术 。[523 1 





FDNA 测 序 工程 中 得 到 的 信息 进行 功能 注 
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10 000.000 ene 
oo 
100000} -~ 
a 
g 100000 oe 
10000 F e7 a“ 
1000 YAKE 
seenacokeraneoepaaaenepas 四 ape a 
100 











1986 1988 1990 1992 1994 1996 1998 2000 2002 


年 份 


图 1-5 ”1987~2001 年 期 间 ，SWISS-PROT 数 据 库 的 指数 增长 


SWISS-PROT 数 据 库 39.16 版 本 中 ， 大 约 有 95 000 条 记录 和 34 800 000 个 氨基 酸 。 


BSI 
无 论 使 用 X 射 线 结晶 或 NMR 技 术 来 确定 蛋 
然而 从 图 1-6 可 以 看 出 ， 这 个 数据 库 也 是 
欧洲 的 许多 结构 基因 组 项 目 启动 ， 它 在 很 














表 1-4 “15 种 最 主要 生物 的 蛋白 质 序列 数目 { 


一 个 增长 速度 更 慢 的 数据 库 是 PDB ( Protein Data Bank ) 数据 库 。 这 反映 了 


白质 的 三 维 结构 ， 实 验 工作 仍然 相当 艰巨 。 
以 指数 速度 增长 ， 而 且 由 于 美国 、 日 本 和 
长 一 段 时 间 内 仍然 会 保持 这 种 增长 速度 。 





国 











SWISS-PROT 数 据 库 39.16 版 本 ，2001 年 4 月 } 





物 种 


序列 数 





BA 
酿酒 醇 母 
AHA 
ARR 


6742 
4845 
4661 
4269 
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CER) 

物 种 序列 数 

ELI 2809 

HARE 2229 

秀丽 线虫 2163 

嗜 血 流感 杆菌 1746 

稳 酒 裂 殖 酵 母 落 1654 

PLES 1443 

哮 热 古 细菌 1429 

HURST 1240 

结核 分 枝 杆菌 1228 

+ 1202 

RG 948 

PDB 数据 库 增长 
10000000 
1000000 
100000 AER 
m 10000 
X 1.000 记录 
100 平均 长 度 
10 
' 1980 1985 1990 195 2000 
年 份 
图 1-6 ”1972~2001 年 间 ，PDB 数 据 库 的 指数 增长 
PDB 数据 库 (2001 年 4 月 19 日 的 材料 ) 大 约 有 14 910 条 记录 ， 共 6 033 000 个 氨基 酸 ( 每 条 记录 平均 长 
度 为 405 个 氨基 酸 )。 
1.3.3 ”蛋白 质 功 能 





HH, 这些 完 整 的 三 维 结构 部 分 地 由 上 





蛋白 质 的 许多 功能 主要 由 一 些 局 部 序列 特征 决定 ， 并 不 依赖 于 完整 的 三 维 结 
径 相 互 作 用 决定 。! "9 1 从 全 面 功能 预测 的 角 
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BORG, 这些 特征 可 以 为 预测 特定 吾 








白质 的 准确 功能 提供 某 些 重要 提示 。 它 们 在 





确定 蛋白 质 区 富 化 (compartmentalization ) 问题 的 否定 结论 ( 例如 某 个 蛋白 质 是 
非 免疫 性 蛋白 或 非 核 内 湿 白 ) 时 ， 也 具有 重要 的 作用 。 


捧 切 能 作用 ， 研 究 方法 足 或 者 利用 基 
者 分 析 细 胞 内 蛋白 质 的 互补 作用 。 
手段 确定 ， 央 为 其 功能 可 
不 是 为 烤 面 包 而 进化 来 的 ， 
后 活 的 需要 。!2451 在 基因 
些 基 


后 基因 组 时 代 牛 物 信 息 学 领域 的 一 个 主要 任务 是 研 























能 与 特定 生物 所 4 











[ 408,360,413 ] 





芯片 对 大 基 基 
REE 
F 存 的 自 








究 基 因 如 何 相 互 配合 而 发 
的 活性 进行 同时 测量 , 或 


白质 的 功能 可 能 很 难 通 过 实验 
然 环 境 密切 相 关 。 酿 酒 酵母 
而 是 为 了 适应 其 在 农作物 诸如 葡萄 和 无 花 果 ) 体内 
组 中 存在 的 许多 基因 是 在 特殊 环境 中 牛 存 的 需要 ， 而 这 
在 实验 室 创造 的 人 工 环境 中 可 能 毫 无 用 处 。 在 许多 情况 下 ， 我 们 甚至 无 法 


并 





模仿 生物 的 自然 寄主 及 其 与 其 他 众多 微生物 的 相互 作用 ， 从 而 无 法 通过 实验 确定 
基因 或 其 产物 的 确切 功能 。 


很 有 价 
可 能 和 共 翻 译 以 及 折 私 后 修饰 有 关 ; 其 他 特征 可 能 与 结构 
供 关于 的 证 据 。 沿 着 这 个 方向 ， 预 测 
Kga 


一 科 


(参见 第 12 章 )。 基 
将 具有 相同 表达 





基 





为 了 阐明 某 些 被 称 为 


“SULA 





可 以 通过 序列 


TR” (orphan protein ) 的 特殊 蛋白 质 的 功能 ， 
HEAR AT A, BRETT 
MRI. AEE A mA 


以 得 到 关于 蛋白 质 功能 的 
推断 得 到 。 一 些 序列 特征 





BRE Seif 





近 几 年 来 ， 人 | 
非常 成 功 的 方 


门 提出 了 一 些 并 











在 不 同时 间 





功能 ( 如 果 这 个 类 别 中 包含 已 


提示 ， 并 在 以 后 的 实验 中 加 以 检验 。 


1288] 


f 不 直接 依靠 序列 


法 就 是 利用 通过 DNA 阵 列 [451 
点 


ies 


H 





似 性 


方法 可 


可 以 根 











区 域 有 关 ， 它 们 可 以 提 
以 提供 关于 蛋白 质 功 能 


a 


的 预测 方法 。 [380.162.271.378 ] 
和 芯片 技术 得 到 的 基因 表达 数据 
织 类 型 中 具有 不 
PRUETT. RE, Ri 





的 表达 模式 ， 我 们 可 以 
据 这 个 类 别 中 最 常 出 现 的 


jE] 








} 

















基 
全 不 


fig 22 5 
DNA 阵 列 的 规模 
会 出 现 越 来 越 多 的 具有 显著 增 减 调节 的 基 


功能 
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A 


能 具有 相同 
似 的 基因 之 间 
非常 大 ， 因 





传递 。 然 而 ， 











此 这 种 方法 不 能 单独 
虑 来 越 大 一 一 足以 包括 一 个 哺乳 动物 的 全 基 


知 功能 类 型 的 基 


在 很 多 | 








信和 号。 














断 该 类 别 其 他 未 知 功能 的 


的 功能 。 通 过 这 种 方式 ， 功 能 信息 可 以 在 序列 相似 性 很 小 或 者 完 
情况 下 共 调 控 基 因 { coregulated gene) 的 功 
用 。 这 种 方法 的 另 


一 个 缺陷 就 是 ， 随 着 
组 序列 ， 进 行 聚 类 时 











类 别 ， 在 这 些 类 别 

















中 没有 一 个 基因 已 知 








另 -种 方法 则 是 基于 功能 域 融合 模式 的 ， 称 为 “Rosetta stone” Frye, 27467] 


基本 想法 是 ， 如 果 一 个 生物 体 中 的 两 个 蛋白 质 在 另外 一 个 生物 中 是 作为 一 个 多 功 


能 域 蛋 白质 的 不 同 单元 存在 ， 就 表明 即使 这 两 个 蛋白 质 在 序列 上 没有 直接 的 联系 ， 


它们 


也 很 有 可 能 执行 相同 的 功能 。 











可 以 用 来 联系 具有 相似 功能 
profile), P 在 系统 进化 谱 中 ， 每 个 蛋白 质 可 
示 。 如 果 两 个 蛋白 质 具有 相同 (或 非常 相似 ) 
一 起 观察 到 -一 .个 生物 体 在 其 基因 组 中 要 么 
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攻 自 质 的 第 三 个 工具 则 足 系 统 进化 谱 (phylogenetic 
[以 用 包含 
的 系统 进化 谱 ， 就 表明 它们 通常 可 以 
同时 编码 两 个 线 白 质 ， 要么 都 不 编码 。 





其 同 源 蛋白 质 的 生物 体 来 表 


这 种 现象 一 个 可 能 的 解释 就 是 这 贞 个 蛋白 质 执行 相 侯 的 功能 。 随 着 基因 组 数据 不 断 





增加 ， 系 统 进 


我 们 完成 更 多 的 多 细胞 生物 的 测序 工作 以 前 ， 这 种 方法 对 于 人 类 得 


作用 非常 有 限 。 
1.3.4 ”蛋白 质 功 能 和 基因 本 体 


在 基因 
键 词 和 层次 关系 ， 对 蛋白 质 的 功能 进行 系统 化 的 描述 。 
本 质 上 就 是 对 分 子 生物 学 的 相关 概念 及 其 相 握 关 系 给 量 





L 谱 有 望 发 挥 更 大 作用 。 这 种 方法 已 经 成 功 应 用 于 酵母 


组 规模 上 确定 贷 白 质 的 功能 ,需要 我 们 利用 





FENH, BE 
白质 功能 预测 的 





一 些 正确 定义 的 类 别 、 关 
基因 本 体 ( gene ontology ) 
规范 化 的 说 明 。 如 果 科 学 

















文献 和 数据 库 中 的 信息 要 以 一 种 最 有 用 的 方式 共享 ， 就 必须 使 用 一 些 标准 的 语法 


和 语义， 这 就 是 建 并 本体 的 目的 。 在 实践 中 
在 设计 时 必须 覆盖 广泛 的 生物 种 类 ( 如 果 不 是 全 部 生 
须 能 够 包含 以 后 的 新 发 现 。 

这 个 领域 的 一 个 主要 进展 T | 是 基因 





ph， 这 意味 着 ， 诸 如 功能 类 别 和 分 类 学 





移 的 活 )， 而 且 这 个 系统 必 


本 体 论坛 ( Gene Ontology Consortium ) 


的 创建 。 这 个 论坛 的 成 员 来 自 于 不 同 的 研究 领域 ， 所 研究 的 模式 生物 包括 果 蜗 











组 数据 库 )， 





(FlyBase ) ATE (Saccharomyces! 





小 鼠 ( 小 鼠 基 








组 和 基因 








AGS BRE), 2% (Arabidopsis Information Resource ) 和 线虫 ( WormBase )。 


基因 本 体 论坛 的 目标 是 创建 一 个 动态 可 控 的 描述 词 表 。 


这 个 描述 词 表 可 以 反映 下 


述 二 个 组 织 原则 和 功能 特征 :〈1 ) 分 子 功 能 ，( 2 ) 生物 过 程 和 (3) 细胞 组 分 。 











一 个 蛋白 质 能 够 表现 出 一 种 或 多 种 分 子 功能 ， 参 与 一 种 或 多 种 生物 过 程 ， 并 与 一 
个 或 多 个 细胞 成 分 有 关 。 
分 子 功 能 阐述 了 基因 产物 个 体 所 执行 的 任务 ， 例 如 转录 因 








生物 过 程 则 氢 述 了 更 加 广泛 的 生物 学 目的 ， 例 如 其 9 
合 的 有 丝 分 裂 或 坚 叭 的 新 陈 代谢 等 。 细 胞 组 分 包 
合体 ， 例 如 细胞 核 、 端 粒 和 复制 起 点 识别 复合 体 。 

我 们 可 以 通过 许多 方式 来 创建 本 体 ， 有 些 方法 





Fl 








子 和 DNA 螺 旋 酶 。 


伴随 着 一 些 分 子 功能 有 序 组 
bE, 


胞 结构 、 位 置 和 大 分 子 复 


E 要 考 虚 分 子 复合 体 或 免疫 系 


统 ， 这 方面 的 工作 包括 RiboWeb 本 体 1'”! 和 ImMunoGenetics 本 体 2 。 另 外 一 


个 本 


要 的 工作 是 EcoCyc 本 体 ，:?073081 用 于 描述 大 肠 杆 
化 机 制 的 数据 库 。 这 个 数据 库 描述 了 一 系列 生物 ( 3 











W (E.coli) 的 基 








组 利生 





要 是 微生物 ) 的 生化 通路 、 
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1.4 





反应 利 酶 。EcoCyc 给 出 了 大 肠 杆 菌 所 有 代谢 酶 的 详细 描述 ， 包 括 它 的 协同 内 子 
(cofactor )、 激 活 剂 (activator )、 抑 制剂 (inhibitor) 和 亚 基 结构 (subunit 


structure )。 数 据 
杆菌 染色 体 图 谱 





库 中 还 列 出 了 已 知 的 编码 其 个 酶 的 业 基 的 基因 ， 以 及 基 


上 的 位 置 。 


生物 序列 的 信息 量 


了 解 信息 的 概念 及 基 定量 化 ， 是 理解 分 子 生物 学 
则 的 最 基本 条 件 ( 附录 B 足 信息 论 的 基本 概念 ， 参 考 文献 [ 57 


的 综述 Jo HE 
ABE EIN Bae 
存在 大 量 非 功能 











在 大 肠 








的 机 器 学 习 方法 的 基本 原 
则 是 关于 信息 论 


a 


FeO TN AF EARE ER PH TE, LSB RE 




















信息 。 这 些 方法 必须 能 将 正 样本 与 负 样本 区 分 开 。 由 于 基因 组 中 
此 负 样 本 的 数量 大 大 超过 正 样本 是 很 普遍 的 ， 机 





器 学 习 方法 必须 在 这 种 情况 下 也 能 进行 正确 








何 从 中 发 现 能 与 其 进行 相互 作用 的 位 点 ? 


机 器 学 习 方 法 在 删 


宜 的 神经 网 络 可 














分 。 这 种 


分 问题 显然 与 细胞 环境 








中 的 分 子 识别 "03344441 密 切 相关 : 存在 大 量 相 似 的 功能 位 点 时 ， 生 物 大 分 子 如 


除 和 压缩 多 余 的 序列 信息 方面 有 很 好 的 效果 。 一 个 规模 适 
以 利用 其 可 调 参数 存储 许多 数据 项 的 普遍 特征 ， 而 不 是 单独 的 序 





列 模式 的 个 别 特征 。 神 经 网 络 训练 过 程 中 隐 含 的 编码 原则 在 某 种 意义 上 将 序列 进 


FIR, HATO A FESS TS AR 








变换 为 一 种 较 简单 的 表示 。 在 这 种 表示 





方法 下 ， 相 关 的 结构 和 功能 类 别 最 后 能 聚集 在 一 起 ， 而 原先 它们 在 序列 空间 上 通 


常 是 分 散 的 。 


硒 代 甲 硫 氨 酸 )。 











例如 ， 长 度 为 13 的 所 有 氨基 酸 片段 ， 
在 序列 空间 中 是 极其 分 散 的 。 其 他 类 型 的 可 
是 如 此 。 在 这 个 序列 空间 中 ， 存 在 20" 种 可 








从 而 在 这 方面 的 研究 中 有 用 武之 地 。 


一 些 序列 片段 其 至 可 能 实现 螺旋 和 折 双 构象， 具体 状态 则 依赖 于 先前 和 其 他 


其 中 心 残 基 处 于 螺旋 构象 中 ， 这 些 片 段 
EH RAR, SOT RATES fH HOR 
能 的 序列 片段 (不 考虑 第 21 个 氨基 酸 : 
人 们 发 现 不 同 的 结构 类 别 一 般 并 不 位 于 序列 空间 中 严格 分 开 的 
区 域 里 ; ”241 相反 地 ， 人 们 可 以 在 倾向 于 采用 螺旋 构象 的 片段 所 组 成 的 序列 区 
域 中 发 现 许 多 孤立 的 折 树 构象 序列 ， 反 之 亦 然 。 机 器 学 习 方 法 由 于 其 处 理 非 线 
的 能 力 , 可 以 发 现 序列 空间 中 更 加 复杂 的 关系 ( 这 些 序列 空间 在 功能 上 并 未 分 离 





RE | 











ADK BCE. ROUEN, SURE AA ABER AHA, 


RERA, MAFA 


Syndrome ) 有 关 














EH SAER AR ARH TEARS AE (Creutzfeldt-Jakob 


。 在 及 病毒 蛋白 中 ， 相 同 的 序列 会 采用 不 同 的 稳定 构象 这 种 构 
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RRL, MBH “OH” AME REM RRA TOR. RAAB 
SOO Ns AE HHA A EAU, RORY BB AS FPR AO ER SL 
构象 的 原因 。- T 从 效果 上 看 ， 这 种 蛋白 质 可 以 视 为 可 遗传 的 结构 信息 的 携 
带 背 。 为 了 将 这 种 病原 体 与 传统 的 遗传 物 质 相 区 分 ， 人 们 引入 “上 肝病 毒 ”( prion ) 
这 个 概念 以 强调 其 与 蛋白 质 的 相似 性 及 其 传染 性 本 质 。 斯 坦 利 ， B， 普 鲁 赛 纳 
(Stanley B.Prusiner ) 由 于 他 在 肝病 毒 方面 的 研究 而 获得 1997 年 诺 贝 尔 生 理 和 医学 
奖 。 滞 白质 可 以 独自 传播 传染 病 的 观点 让 科学 界 极度 震 惊 ， 人 们 对 于 这 些 蛋白 质 
功能 的 内 在 机 制 仍 有 很 大 的 争 沦 。 

任何 利用 局 部 序列 信息 的 预测 方法 ， 都 不 可 能 解决 类 似 肝 病毒 蛋白 的 构象 冲 
X (conformational conflict ) 的 问题 。 然 而 ， 这 些 方 法 可 以 指出 : 与 卷曲 构象 相 
比 ， 某 序列 片段 是 否 具 有 更 高 的 实现 螺旋 和 折 秋 构象 的 潜能 。 人 们 利用 一 种 序列 
分 析 中 非常 成 功 的 机 器 学 习 方法 一 HAE (Rost) MA (Sander) 的 PHD 方 
法 一 一 分 析 肝 病毒 全 白 序列 时 发 现 情况 正 是 如 此 。- 25662671 我 们 将 在 第 6 章 中 重新 
考虑 这 个 问题 ， 并 讨论 共 他 预测 蛋白 质 二 级 结构 的 方法 。 

另 一 个 与 元 余 有 关 的 问题 是 ， 在 确定 蛋白 质 三 级 结构 时 不 同 氨基 酸 的 相对 重 
要 性 , 3”' 即 化 白质 氨基 酸 序列 的 哪 一 部 分 能 够 完全 次 定 其 结构 ? 人 们 设立 了 
Paracelsus 挑 战 赛 ,! “5 2! 4°) 鼓励 关于 《与 蛋白 质 稳定 性 相对 的 ) 序列 特异 性 作 
用 的 研究 。 比 赛 的 内 容 是 将 蛋白 质 在 保持 原 丰 序列 50% 氨 基 酸 的 前 提 下 ， 转 化 折 
答 成 新 的 各 白 质 。 最 近 ， 一 种 原来 主要 由 4 折 看 构成 的 蛋白 质 通过 这 种 方法 被 改变 
成 一 种 接近 自然 的 称 定 的 四 螺旋 束 结构 《 four-helix bundle ), |?! 这些 研 究 表明 
残 基 以 一 种 高 度 非 线性 的 方式 决定 折 秋 类型。 鉴别 出 完成 特定 折 释 类 型 所 需要 的 
最 基本 条 件 ， 不 仅 对 于 设计 预测 方法 十 分 重要 ， 而 且 是 解决 蛋白 质 折 秋 问题 的 明 
显 进步 。! 5， 

从 20 世 纪 50 年 代 林 以 来 ， 对 于 生物 序列 宛 余 和 信息 量 的 分 折 受 到 语言 学 的 强 
烈 影响 。 分 子 生 物 学 诞生 于 科学 方法 论 受 语 谋 哲 学 影响 的 年 代 。!3261 分 子 生物 学 
中 许多 有 影响 的 观点 来 源 于 自然 语言 的 哲学 和 数学 处 埋 方 法 ， 其 原因 是 这 些 方法 
在 “自然 ”生物 序列 分 折 中 部 分 地 “再 利用 "， 如 今 这 种 方法 仍 适 用 于 分 子 生物 学 
(参见 第 11 章 )。 己 传 信息 的 数字 化 本 质 以 及 生物 序列 可 以 通过 一 些 连续 的 步 怠 翻 
详 成 男 外 一 种 表示 法 这 个 事实 ， 也 是 建立 这 两 个 学 科 问 的 联系 和 类 比 的 重要 原因 。 

人 们 在 破解 遗传 密码 的 年 代 蛙 ， 翻 详 遗 传 密码 的 研究 同样 受到 语言 学 的 影响 。 
世纪 60 年 代 ， 人 们 将 20 个 氨基 酸 和 翻 诺 的 终止 信号 对 应 于 64 个 三 联 体 密码 子 ， 
当时 人 们 认为 编码 方法 最 基本 的 特征 是 其 纠 错 能 力 。 在 那个 时 代 ， 从 宇宙 飞船 发 
同 的 信息 中 恢复 康 始 消息 是 编码 和 信息 论 领域 的 一 个 关键 课题 。 香 农 ( Shannon ) 











































































































时 
8 


























24 生物 信息 学 


的 信息 论 方法 ， 能 够 利用 元 余 性 进行 编码 而 在 噪声 信道 上 无 差错 地 传输 数据 ， 这 
种 方法 在 当时 受到 重视 。 遗 传 密码 的 块 状 结构 ， 确 保 了 密码 子 一 反 密 码 子 识别 中 
最 经 常 出 现 的 钳 误 对 于 翻译 产 牛 的 影响 达到 最 小 程度 ， 所 产生 的 氨基 酸 不 是 与 诛 
来 相同 , 就 是 至 少 具 有 某 些 相同 的 物理 化 学 特性 , 特别 足 朴 水 性 (hydrophobicity )。 
遗传 密码 其 他 无 错 纠正 特性 的 重要 件 也 许 被 我 们 低估 了 。 我 们 将 在 第 6 章 看 到 ， 
对 于 利用 核 苷 酸 _: 联 体 和 氨基 酸 之 间 的 对 应 训练 神经 网 络 ， 使 用 标准 密码 训练 出 
的 神经 网 络 较 为 简单 ;而 使 用 其 他 一 些 差错 纠正 密码 得 到 的 神经 网 络 则 要 复杂 得 
多 。 人 们 提出 这 些 差错 纠正 密码 ， 尼 希望 它们 能 够 作为 进化 过 程 所 产生 的 编码 规 
MIKRE 1 
生物 序列 所 包含 的 信息 量 与 它们 的 可 压缩 性 有 关 。 直 观 上 看 ， 重 复 量 大 的 简 
单 序列 可 以 用 较 短 的 语言 描述 ， 调 从 不 自我 重复 的 复杂 随机 序列 所 需要 的 描述 语 
言 则 要 长 得 多 。 数 据 压缩 算法 在 计算 机 中 广泛 应 用 ， 用 于 提高 磁盘 、CD-ROM 利 
伐 带 的 容量 。 传 统 的 文本 压缩 策略 可 以 保证 在 不 损失 信息 的 情况 下 重 构 原 始 数据 。 
文本 压缩 算法 可 以 使 用 一 种 宛 余 较 少 的 表示 法 给 出 简短 的 描述 一 一 道 常 称 为 代 
号 ; 我 们 还 可 以 进行 相反 的 工作 ; 解释 代号 并 还 原 成 未 诗 缩 的 消息 。[*” 1] 分 子 生 
物 学 的 文献 就 充满 了 这 样 的 代号 ， 缩 短 了 这 种 特殊 类 型 文本 的 长 度 。 例 如 : DNA 
作为 脱氧 核 精 核酸 的 缩写 ， 帮 助 压 缩 了 本 书 的 文字 数量 。!57"1 

对 于 一 些 文本 序列 ， 例 如 计算 机 程序 的 源 代码 ， 缺 少 一 个 符 对 就 可 能 极 大 改 
变 原文 的 意思 。 但 对 于 其 他 类 型 的 数据 ， 即 使 我 们 不 能 完全 重 构 原 始 信息 ， 讨 纳 
表示 还 是 很 有 用 的 。 一 个 普通 的 例子 就 是 声音 数据 。 通 过 电话 线 传输 声音 数据 时 ， 
由 于 并 不 严格 要 求 复 制 所 有 原始 数据 ， 不 太 精 确 的 解压 缩 是 可 以 接受 的 。 对 于 无 
损 压 缩 ， 编 码 后 的 数据 实际 上 是 计算 原始 数据 的 一 种 程序 。 在 后 面 的 章节 中 ， 我 
们 对 于 与 机 器 学 习 相 联系 的 压缩 算法 的 直接 和 问 接 使 用 ， 都 有 详细 措 述 。 

在 1.2 节 中 ， 我 们 人 氢 述 了 一 种 用 于 分 析 大 容量 基因 组 宛 余 性 的 实验 手段 。 对 于 
大 容量 基因 组 ， 如 果 仪 仅 是 对 每 个 基因 增加 相应 比例 的 拷贝 ， DNA 复 性 实验 的 动 
力学 过 程 会 比 实验 观察 到 的 快 得 多 。 由 此 可 以 推断 ， 大 容量 基因 组 中 外 显 子 之 外 
的 DNA 序 列 不 太 可 能 编码 蛋白 质 , 8 所 以 对 于 序列 数据 的 算法 压缩 不 再 是 一 件 
简单 的 工作 。 
对 于 生物 序列 中 重复 片段 的 统计 学 特性 的 研究 ， 尤 其 是 它 与 基因 组 进化 的 关 
系 ， 可 以 为 我 们 提供 很 多 信息 。 这 样 的 分 析 可 以 为 一 些 事件 提供 证 据 ， 这 些 事件 
比 随机 产生 的 单 点 突变 的 测定 和 合并 事件 更 加 复杂 。 相 二 关联 的 基因 组 组 合 ( 包 
括 相 同 物种 的 个 体 间作 用 和 物种 之 间 的 遗传 信息 的 横向 传输 ) 代表 了 基因 组 间 的 
相互 通讯 ， 这 使 得 对 进化 通路 进行 的 分 析 变 得 十 分 因 难 。 
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大 自然 产生 了 一 些 无 用 和 泛 泪 的 基 


组 组 合 ， 形 成 不 育 的 生物 个 体 ， 这 些 生 





物体 无 法 对 基因 库 的 进 
育 的 动物 。 一 个 不 常见 的 例子 足 狮 虎 〈1i 





再 做 贡献 。 众 所 周知 ， 又 子 是 马 和 驴 杂 交 生 成 的 不 能 生 


ger )， 这 是 雄 狮 与 峻 虎 交 配 后 产生 的 后 





代 ， 相 应 地 也 存在 虎 狮 〈tigron )。 与 它 人 
张 、 心 神 不 宁 ， 而 外 表 


的 双亲 不 同 的 是 ， 这 些 杂 交 动 物 神经 紧 


上 看 它们 结合 了 狮 和 虎 的 大 部 分 有 代表 性 的 特征 。 还 不 清 


楚 能 否 在 自然 界 发 击 野 生 的 狼 虎 ， 它 们 的 可 能 的 双亲 大 多 居住 在 不 同 的 大 陆 了 。 

















中 





但 在 洛杉矶 野生 动物 


些 私人 拥有 者 曾经 饲养 了 一 些 狮 虎 ， 不 过 他 们 现在 


不 太 可 能 再 拥有 这 些 动物 。 图 1-7 是 这 种 令 人 迷惑 的 动物 的 照片 。 





图 1-7 雄 狮 和 趴 虎 杂 交 的 后 代 一 一 狮 虎 的 照片 
洛杉矶 野 生动 物 园 ( Beverly Setiowe ) 提供 。 


从 描述 长 度 的 角度 看 ， 生 物 序列 
其 至 对 于 没有 二 
酸 、 三 核 苷 酸 等 分 布 特性 











P 的 重复 片段 无 疑 是 压缩 算法 的 绝 好 目标 。 
用 复 片段 的 、 自 然 出 现 的 序列 
使 我 们 可 能 利 





， 统 计 上 的 偏 倚 一 一 如 二 肘 、 双 核 戎 
用 代表 词 (representative word) ARE 





人 @ 在 亚洲 的 一 些 地 区 ， 独 和 虎 的 活动 区 域 较为 接近 ， 如 印度 西北 部 的 Gujarat 地 区 。 
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仲 字符 集 (extended alphabet) 改写 原 有 序列 ， 从 而 得 到 较 短 的 符号 序列 。 

序列 编码 后 的 长 度 与 原先 长 度 的 比值 ， 就 是 压缩 比率 。 压 缩 比率 是 对 数据 整 
体 规则 程度 的 定量 刻画 : 

R= g (13) 

自然 文本 与 DNA 序 列 的 一 个 重要 区 别 在 于 重复 序列 出 现 的 情况 不 同 。 在 较 长 的 
自然 文本 中 ， 重 复 序列 通常 较 小 而 且 相互 近似 ; 而 在 DNA 序 列 中 ,长 重复 序列 通常 
相隔 很 远 。!“”] 这 使 传统 的 序列 压缩 策略 O°) 对 于 DNA 和 蛋白 质数 据 不 太 有 效 。 尽 
管 如 此 ， 使 用 为 其 他 类 型 数据 设计 的 压缩 算法 ， 如 UNIX 环 境 下 基于 Lempel-Ziv 算 
法 的 compress 程 序 ， 可 以 得 到 很 好 的 压缩 效果 。![55 1 由 于 其 阅读 框 和 三 联 体 规则 作 ， 
编码 区 一 般 比 随机 的 非 编码 区 如 内 含 子 更 易 压 缩 ， 就 不 令 人 感到 特别 惊讶 。[2??] 通 
常 认 为 ， 功 能 性 RNA 较 其 他 大 多 数 序列 少 重复 , [3%1 但 由 于 它们 折 杰 成 二 级 结构 的 
潜力 很 大 ， 因 此 具有 另 一 种 内 在 结构 ， 从 而 减少 了 随机 人 性 或 信息 量 。 

隐 马 氏 模 型 是 分 析 序列 中 单 体 连续 模式 (sequential pattern of monomers ) 的 
强 有 力 工具 。'"1 它 可 以 作为 给 定语 言 的 任意 可 能 序列 的 生成 模型 ， 生 成 的 每 个 
序列 都 具有 相应 的 概率 。 由 于 模型 通常 要 通过 训练 才能 体现 给 定 序列 集 的 规则 ， 
大 部 分 序列 最 后 的 出 现 概率 非常 接近 于 0。 如 果 训 练 过 程 成 功 ， 训 练 集中 的 序列 
(可 能 还 有 它们 的 同 源 序列 ) 的 概率 值 就 较 高 。 如 果 考 虑 给 定 字符 集 的 所 有 可 能 
序列 组 成 的 空间 ， 我 们 可 以 认为 隐 马 氏 模 型 是 对 于 这 个 空间 上 的 分 布 进行 参数 化 
的 工具 。 例如， 一 种 特殊 的 蛋白 质 家 族 一 一 球 蛋 白 可 以 看 成 序列 空间 上 的 一 个 点 
集 。 利 用 这 些 序列 的 一 部 分 训练 一 个 新 模型 ， 可 以 看 成 是 在 序列 空间 上 创造 一 个 
分 布 函数 ， 这 个 分 布 函 数 在 该 点 集 上 的 取 值 高 于 其 他 区 域 。 


1.41 ”信息 和 信息 约 简 


通常 从 计算 的 角度 看 ， 分 类 和 预测 算法 意味 着 减少 信息 量 。 算 法 的 输 人 是 含 
有 大 量 信息 的 序列 数据 ， 输 出 则 可 能 是 一 个 简单 的 数 。 在 最 简单 的 情况 下 ， 输 出 
其 至 只 是 代表 在 两 类 中 进行 选择 的 “是 ”和 “和 否 "。 对 于 后 者 ， 在 两 种 类 别 等 可 
能 时 ， 输 出 的 信息 量 达到 最 大 值 1 比特 ( bit )。 根 据 氨基 酸 残 基 是 否 位 于 at 螺旋 构 
象 进行 分 类 ， 就 是 这 样 一 种 二 分 法 。 在 这 种 情况 下 ， 输 出 的 平均 信息 量 会 比 每 个 
残 基 1 比 特 小 得 多 ， 因 为 自然 生成 的 蛋白 质 中 大 约 有 30% 的 氨基 酸 属于 螺旋 类 别 。 
沿 着 序列 “猜测 ”构象 类 别 时 ， 我 们 所 需要 询问 的 “是 / 否 ” 问 题 数 的 均值 小 于 1。 

这 些 算法 的 缩减 特性 意味 着 它们 是 不 可 逆 的 ， 我 们 不 能 通过 反 向 执行 预测 程 
序 而 返回 输入 信息 。 从 预测 一 个 氨基 酸 残 基 结构 类 别 的 神经 网 络 的 输出 ， 我 们 无 
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法 判定 输入 的 究竟 是 哪个 特定 的 倪 基 龄 ， 甚 至 不 能 断定 它 与 其 他 氨基 酸 残 基 的 关 
系 。 同 样 ， 无 沦 在 什么 层次 上 ， 我 们 都 不 可 能 从 隐 马 氏 模 型 的 对 数 似 然 度 出 发 重 


现 原 有 序列 。 


计算 过 程 一 般 都 会 去 弃 信 息 ， 并 以 逻辑 上 不 可 逆 的 方式 进行 。 即 使 简单 的 数 
字 求 和 运算 也 是 如 此 ， 和 数 中 并 不 包含 各 个 加 数 取 值 的 信息 。 细 胞 中 发 生 的 许多 
与 序列 相关 的 信息 处 理 过 程 也 是 如 此 。 遗 传 密码 就 提供 了 一 个 最 显著 的 例子 :64 
个 三 联 体 与 20 个 氨基 酸 及 翻译 终止 信号 之 间 的 对 应 具有 简 并 性。 除了 和 蛋氨酸 和 色 
氨 酸 ， 其 余 所 有 氨基 酸 都 对 应 多 个 三 联 体 ， 这 使 我 们 无 法 从 蛋白 质 的 氨基 酸 序 列 


中 得 到 进行 编 公 的 mRNA 序 列 ， 也 不 知道 究 竞 是 三 


了 翻译 过 程 。 特 定 生物 个 体 中 三 联 体 的 概率 分 布 ， 
际 上 翻译 过 程 究竟 丢弃 了 多 少 信 息 。 











个 终止 密码 子 中 的 哪 一 个 终止 
即 其 密码 子 使 用 频率 决定 了 实 











在 前 面 还 提 到 另外 一 个 非常 重 监 的 例子 ， 即 真 核 生物 通过 基因 组 PNA 的 转录 
水 mRNA 前 体 生成 成 熟 的 mRNA。 打 断 蛋 白质 编码 部 分 的 非 编码 区 (内 会 子 ) 在 
细胞 核 中 被 剪 切 ， 而 编码 区 域 重新 楼 合 ( 参见 1.1.2 和 6.5.4 节 )。 但是， 看 上 去 很 
难 或 不 能 依靠 成 熟 的 mRNA 来 高 精度 地 定位 中 断 序列 所 处 的 接合 处 ，!2546] 显然 
也 不 可 能 从 成 熟 mRNA 序 列 重 现 内 含 子 序 列 。 前 接 接 合 处 保存 的 局 部 信息 大 部 分 
位 于 内 含 子 中 。 这 点 是 很 有 意义 的 ， 因 为 这 表明 对 于 组 成 成 熟 mRNA 序 列 的 外 显 
子 ， 其 编码 蛋白 质 的 能 力 没有 什么 限制 。 有 趣 的 是 ， 仅 仅 作为 剪接 的 后 果 ， 一 些 
特殊 的 蛋白 质 似乎 与 成 熟 mRNA 序列 中 的 外 显 子 接合 处 有 联系 ，!2561 这 意味 着 剪 
接 后 的 信使 可 以 “回忆 ”起 内 含 子 的 位 置 。 剪 接 机 制 在 接合 处 遗留 下 这 样 一 些 特 


























征 溪 和 白质， 也 许 尾 为 了 影响 转录 后 体内 的 后 期 发 生 事件 


变 和 翻 详 。 














例如 mRNA 转 运 、 衰 


信息 约 简 的 更 为 奇异 的 例子 当 属 RNA 编 辑 现象 O 和 从 蛋白 质 中 移 去 “内 全 
AA" Cintein J. 10257] 在 RNA 编 辑 过 程 中 ， 利 用 基因 组 中 位 于 其 他 位 置 的 指导 
RNA 序 列 对 于 原始 转录 本 进行 后 期 处 理 。 这 个 过 程 中 ， 单 个 核 苷 酸 或 更 长 的 片段 
被 改变 ， 或 者 直接 跳 过 。 很 明显 我 们 无 法 从 编辑 过 的 mRNA 序列 恢复 基因 的 原始 
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人 们 发 现在 某 些 多 肽 链 中 也 存在 剪接 现象 ， 内 会 肽 序列 片段 被 移 开 ， 随 后 不 





同 序列 的 终端 接 台 在 一 起 。 在 暑热 占 细菌 的 全 基 








组 中 ， 人 人们 人 惊讶 地 发 现在 预测 


所 得 的 睹 放 阅读 杠 中 存在 大 量 的 内 含 肽 。 逻 辑 或 者 物理 不 可 逆 的 其 他 例子 也 大 量 


存在 ,这 显然 与 大 部 分 生命 过 程 的 不 可 逆 的 热力 学 
计算 分 类 和 预测 方法 的 信息 约 简 本 质 ， 使 我 











本 质 有 关 。 
站 更 容易 了 解 为 什么 在 对 数据 





进行 处 理 时 加 入 额外 的 数据 通常 并 不 会 产生 更 好 的 效果 。 如 果 所 添加 的 数据 并 
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没有 很 强 是 有 价值 的 关联 ， 结 果 只 是 使 预测 算法 在 输出 只 有 1 或 2 比特 的 结果 时 
要 丢弃 上 更 多 的 信息 ， 从 而 增加 了 计算 负担 。 尽 管事 实 上 额外 的 数据 包含 某 些 可 
利用 的 特征 ， 但 所 得 的 结果 经 党 具有 较 低 的 信 噪 比 ， 从 而 降低 了 预测 性 能 ( 参 
见 第 6 章 )。 

蛋白 质 二 级 结构 预测 通常 在 使 用 13 个 氨基 酸 片 段 数据 时 会 取得 更 好 的 效果 ， 
而 不 是 长 度 为 23 或 更 高 数值 的 序列 片段 。 这 不 仅仅 是 由 于 输入 空间 的 维 数 灾难 问 
题 : 维 数 越 高 ， 固 定数 目的 样本 分 布 在 越 稀 琉 的 空间 。f7] 而 是 因为 实际 情况 中 ， 
尽管 序列 数据 中 存在 长 程 相关 性 ， 但 若 我 们 所 拥有 的 蛋白 质 三 维 结构 的 数据 量 是 
一 定 的 ， 上 下 游 额 外 10 个 残 基 加 人 的 噪声 就 会 超过 长 程 相关 所 带 来 的 正面 效应 。 

在 处 理 非 关 联 的 数据 特征 时 ,机 器 学 习 方法 由 于 具有 内 在 的 鲁 棒 性 (robustness ) 
与 其 他 方法 相 比 具有 很 大 的 优势 。 神 经 网 络 的 权重 因子 在 训练 过 程 中 会 消失 ， 除 非 
序列 数据 的 正 相关 性 或 负 相关 性 将 它们 保留 下 来 并 加 以 利用 。 这 意味 着 使 用 23 个 氨 
基 酸 并 不 会 成 为 一 场 灾 难 ， 但 是 如 果 要 求 所 需要 处 理 的 输入 空间 的 信和 号 与 噪声 的 关 
系 更 加 和 谐 ， 利 用 23 个 氨基 酸 的 预测 算法 效果 仍 不 理想 。 

信息 约 简 对 于 我 们 理解 几乎 所 有 类 型 的 预测 系统 都 是 一 个 关键 。 如 上 文 所 述 ， 
机 器 学 习 算法 可 以 得 到 序列 空间 更 简单 的 表示 方式 ， 这 种 表示 方式 比 包含 所 有 细 
节 的 原始 数据 更 有 用 ， 功 能 也 更 强大 。 

《 艾 丽 斯 漫游 仙境 》 的 作者 ， 数 学 家 查尔斯 ， 道奇 森 [Charles Dodgson， 笔 
名 为 刘易斯 ， 卡 罗 尔 (Lewis Carroll) ] 在 100 多 年 前 就 讨论 过 地 图 与 映射 关系 的 
实际 问题 。 在 “ 西 尔 维和 布鲁诺 加 入 队伍 ”这 一 节 故 事 中 ， 米 恩 ， 赫 尔 ( Mein 
Herr ) 苦 术 了 人 们 所 能 想到 的 最 广阔 的 地 图 ， 一 个 比例 尺 为 1 : 1 的 地 图 。 他 被 间 
:“ 你 使 用 过 这 个 地 图 吗 ? ”他 答 道 :“ 它 至 今 还 没有 被 展开 。 农 夫 们 讨厌 这 个 
图 ,他 们 说 这 幅 地 图 会 闯关 所 有 的 土地 并 造 住 阳光 ! 现在 我 们 正 用 着 这 片上 地 ， 
就 是 它 自身 的 地 图 ， 而 且 我 保证 它 近 乎 完美 。” 
ERKE + 殖 尔 的 观点 ， 我 们 应 该 保留 现 有 公共 数据 库 中 文本 结构 松散 、 平 
面 化 的 特点 ， 不 要 试图 利用 神经 网 络 或 者 隐 轧 氏 模 型 等 工具 增强 数据 库 文件 的 主 
要 特征 。 
1.4.2” 比 对 和 预测 : 比 对 何 时 可 靠 

为 了 得 到 更 多 对 于 功能 的 认识 以 及 关于 结构 和 功能 关系 的 暗示 ， 我 们 通常 会 
将 新 序列 与 许多 数据 库 中 的 所 有 序列 进行 比 对 。!7?] 一 个 基本 问题 是 ， 对 两 条 序 


列 进行 比 对 时 ， 序 列 相 似 性 需要 达到 什么 程度 才 可 以 使 我 们 放心 推断 两 者 的 结构 
或 功能 具有 相似 性 ? 换 名 话说， 如 果 通 过 某 种 比 对 方法 检测 到 一 个 序列 片段 发 生 
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重合 ， 我 们 能 和 否 由 此 定义 一 个 相似 性 阔 值 用 于 筛选 可 靠 的 检测 结果 吗 ? 在 阔 值 以 
下 ， 进 行 比较 的 两 条 序列 有 些 相 关 、 有 些 不 相关 ， 因 此 低 于 阐 值 的 匹配 并 不 足以 
得 到 侍 定 结论 。 众 所 周知 ， 在 序列 相似 性 很 低 的 情况 下 ， 蛋 白质 的 结构 也 可 能 非 
常 相似 。 而 在 相似 性 标准 这 么 低 的 时 候 , 会 由 于 随机 性 产生 其 他 相互 比 对 的 结果 ， 
从 而 与 真正 相关 的 序列 所 产生 的 比 对 结果 相 混淆 。 

对 于 这 个 问题 较 有 意义 的 回答 是 ， 这 完全 依赖 于 你 要 考察 的 那个 特定 结构 或 
功能 特性 。 对 于 不 同 的 目的 ， 充 分 和 必要 的 相似 性 阅 值 是 不 同 的。 可 靠 的 结构 性 
推断 仅 需 要 一 个 层次 的 相似 性 ， 而 功能 性 推断 对 于 每 一 种 功能 一 般 都 需要 一 个 新 
阔 值 。 某 些 功能 特征 可 能 和 全 序列 有 关 ， 例 如 一 个 序列 是 否 属于 一 类 特定 的 酶 。 
而 另 一 些 功能 特征 则 完全 依赖 局 部 序列 的 组 成 ， 例 如 ， 一 条 蛋白 质 序列 靠近 N 端 
的 特定 位 置 是 否 有 信号 肽 剪 切 位 点 。 

一 般 而 言 ， 在 推断 较 有 把 握 的 范围 和 内， 人们 更 倾向 于 进行 序列 比 对 而 不 是 预 
测 。 在 最 好 的 情况 下 ， 预 浏 方法 应 沪 可 以 扩大 可 靠 推断 的 区 域 。 许 多 方法 在 给 出 
预测 结果 的 同时 也 给 出 了 置信 度 ， 因 此 我 们 可 以 通过 对 置信 度 进 行 评价 而 实现 上 
述 目 祭 。 我 们 将 在 第 5 章 详细 讨论 这 方 而 的 内 容 。 

桑 德 (sander ) 和 施 奈 德 ( Schneider ) 首先 对 蛋白 质 序列 相似 性 与 结构 相似 性 
的 关系 进行 算法 研究 。! “2 1 在 比 对 长 度 与 重合 部 分 中 相同 残 基 所 占 百分比 的 关系 
图 中 ， 可 以 看 到 两 个 区 域 : 一 个 区 域 完全 由 结构 相似 的 成 对 序列 组 成 ， 另 一 个 则 
是 既 有 相似 组 又 有 不 相似 组 的 混合 区 域 。 重 合 部 分 中 大 于 70% 的 残 基 二 级 结构 类 别 
相同 ， 就 被 定义 为 结构 相似 。 可 以 观察 到 对 应 于 三 维 空间 中 两 个 序列 结构 比 对 的 
均 方 根 仿 差 的 最 大 值 为 2.5 埃 。 混 合 区 域 反映 了 二 级 结构 相似 性 偶然 可 能 超过 70%， 
尤其 对 于 非常 短 的 重合 片段 ， 黄 至 完全 无 关 的 一 对 序列 的 相似 值 也 可 能 很 高 。 

两 个 结构 域 的 边界 和 由 此 得 到 的 用 百分比 衡量 的 序列 相似 性 阅 值 ， 依 赖 于 比 
对 (重合 ) 区 域 的 长 度 。 桑 德 和 施 奈 德 定义 了 一 个 与 长 度 有 关 的 阔 值 函数 : 重合 
长 度 f<10 时 ， 认 为 没有 相似 性 ; 10<!<80 时 ， 曾 值 为 290.15F0562%; [>80 时 ， 阅 值 
为 24.8%。 

我 们 可 以 利用 阔 值 ， 考 察 序列 比 对 方法 是 否 可 以 得 到 可 靠 的 推断 ， 或 者 对 了 
特定 的 目的 我 们 是 否 必须 使 用 预测 方法 。 如 果 新 序列 的 相似 性 高 于 阔 值 ， 倾 向 于 
用 比 对 或 同 源 横 建 的 方法 ; 如 果 低 于 阐 值 ， 则 应 该 采用 更 加 先进 的 模式 识别 技术 
的 预测 方法 ,或 者 将 其 和 比 对 方法 结合 使 用 。 

对 于 此 类 分 析 ， 所谓“ 推断 的 可 靠 区 ”当然 不 是 100% 可 靠 ， 而 仅仅 作为 
种 指导 思想 ， 例 如 为 验证 高 通 量 预测 算法 而 构造 测试 集 。 我 们 知道 在 许多 情况 下 ， 
一 个 氨基 酸 的 改变 会 导致 看 白质 变 成 一 个 完全 不 同 ， 共 至 可 能 是 不 折 辣 和 且 不 发 挥 
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功能 的 青白 质 。 
位 点 ， 这 些 位 点 
定 蛋白 质 发 生 作 








单 核 苷 酸 多 态 性 项 目的 部 分 目标 就 是 为 了 鉴别 位 于 编码 区 的 SNP 




















用 而 改变 药物 疗效 。[2241 


1.4.3 ”功能 特征 的 预测 


用 于 解决 结构 问题 的 结构 序 乡 


序列 预测 问题 。 


的 相似 性 程度 应 
在 上 文中 





可 能 影响 蛋白 质 构象 ， 并 由 此 影响 疾病 的 易 感性 ， 并 且 通 过 和 特 


4 一 侦 性 的 阔 值 ， 不 能 直接 应 用 竹 与 功能 相关 的 


如 果 我 们 要 根据 数据 库 中 已 通过 实验 验证 的 一 些 序列 的 信号 肽 剪 
切 位 点 ， 来 准确 推断 一 个 新 序列 位 点 的 确切 位 置 ， 则 我 们 事先 完全 不 知道 所 需要 


该 是 什么 。 








， 通 过 量化 空间 中 的 平均 距 高 来 定义 “结构 相似 "。 在 比 对 算法 


中 





功能 相似 则 意味 着 具有 相似 功能 的 任何 两 个 碱 基 必 须 精确 匹配 ， 没 有 任何 偏 移 。 
如 果 希 望 很 据 一 个 序列 的 剪 切 位 点 明确 定位 另 一 个 序列 的 位 点 ， 则 两 个 序列 在 前 
切 位 点 附近 必须 严格 对 齐 。 实 际 上 ， 能 否 仅 通过 比 对 将 完全 可 靠 的 推断 区 域 与 混 





合 区 域 正确 区 分 ， 





SER 
该 函数 能 给 出 功 
通用 原则 : 这 种 
白质 序列 的 精 基 
URS A HOB 


必须 给 出 对 应 的 


这 依赖 于 不 同类 型 功能 位 点 的 保守 程度 。 


原则 的 定义 相 结合 , 成 功 比 对 的 二 元 标准 可 以 用 于 确定 阔 值 函数 ， 
能 相似 性 的 最 佳 状 别 效 果 。'” ?确定 一 个 精心 选择 的 阐 值 有 一 个 
方法 应 该 容易 推广 到 其 他 类 型 的 序列 分 析 。 这 类 分 析 包 括 确定 蛋 














化 位 点 、 磷 酸化 位 点 ， 叶 绿 体 和 线粒体 的 转运 肽 《transit pepti 





de ) 


切 位 点 (cleavage site) 对 于 核酸 序列 ， 这 类 分 析 包括 mRNA 前 
体 的 内 含 子 剪接 位 点 〈splice site )、 核 糖 体 接合 位 点 以 及 启动 子 。 对 于 每 类 分 析 


RHE. 


对 于 诸如 mRNA 前 体 剪接 位 点 和 淄 白 质 糖 基 化 位 点 的 这 类 分 析 ， 必 须 考虑 到 
一 个 序列 上 存在 多 个 位 点 。 解 决 这 种 问题 的 一 种 方法 是 将 每 个 序列 分 割 为 多 个 子 
序列 ， 每 个 子 序列 有 一 个 可 能 的 位 点 ， 然 后 对 于 子 序列 利用 以 上 算法 进行 预测 。 


一 种 方法 是 利 
性 的 一 个 指标 ， 
构 的 氨基 酸 所 占 








用 每 个 比 对 过 程 中 所 对 齐 的 位 点 所 占 的 比例 ， 作 为 衡量 功能 相似 
这 与 桑 德 和 施 奈 德 所 使 用 的 结构 相似 性 ( 比 对 中 具有 相同 二 级 结 
的 百分比 》 有 些 类 似 。 对 于 这 种 情况 ， 在 具体 计算 功能 相 亿 性 冰 


值 之 前 ， 必 须 先 给 出 功能 相似 性 的 阔 值 的 定义 一 对 应 于 桑 德 和 施 奈 德 使 用 的 


70% 结 构 相似 阅 


值 。 


1.4.4 ”全 局 和 局 部 比 对 以 及 蔡 换 矩阵 的 炳 


实际 上 ， 利 








法 评判 两 个 序列 


用 对 序列 的 整个 结构 都 普遍 适用 的 规范 或 惟一 的 评判 标准 ， 并 无 
的 两 两 比 对 是 否 最 优 。 比 对 算法 ( alignment algorithms ) 所 得 出 
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的 匹配 结集 完全 依赖 于 定义 对 应 单 体 相 似 性 的 量化 参数 、 空 位 和 缺失 的 罚 分 ， 而 


算法 的 设计 目标 是 用 于 优化 全 局 还 是 局 部 得 分 对 于 结果 的 影响 最 为 显著 。 
有 些 关于 后 物 相关 的 问题 必须 对 卫 个 序列 进行 全 局 比较 ， 也 可 能 不 考虑 序列 





本 端的 差异 ;而 有 些 问 题 ， 





如 果 不 从 子 序列 的 角度 对 具有 相似 


者 位 点 进行 定位 ， 就 变 得 毫 无 意义 。 
传统 的 比 对 算法 是 基于 动态 规划 的 ， 如 最 优 全 局 比 对 的 Needleman-Wunsch 
算法 OO) 和 最 优 局 部 比 对 的 Smith-Waterman 算 法 |?) ( 参见 第 4 章 )。 如 果 我 





们 要 对 商 个 序列 任何 oj 能 的 


方式 增长 的 。 动 态 规 划 是 一 种 可 以 用 于 


比 对 所 对 应 的 分 值 进行 穷 举 评价 ， 





序列 结构 的 片段 或 


其 计算 量 是 以 组 合 


F 控 制 计算 量 组 合 爆炸 (combinatorial 


explosion ) 的 计算 方法 ， 然 而 动态 规划 的 计算 量 依然 很 大 。 为 了 进一步 减少 发 现 
显 革 比 对 所 需 的 数据 资源 ， 人 们 设计 了 一 系列 的 启发 式 算法 。[4749] 其 他 -一 些 速 








度 很 快 而 且 很 可 靠 的 启发 式 
较 短 的 子 序列 延伸 为 更 长 的 
传统 比 对 策略 的 详细 叙述 。 
重要 问题 。 











策略 并 不 是 建立 在 动态 规划 基础 上 
匹配 。! 5 1 读 者 可 以 在 其 他 文献 











， 而 是 交互 式 地 将 
hH [550.428 ] 找到 关于 








这 里 ， 我 们 将 集中 考虑 与 精心 设计 





数据 集 有 关 的 一 些 


在 实际 应 用 中 ， 蔡 换 抵 阵 〈 substimtion matrix) 的 选择 在 很 大 程度 上 影响 局 


部 比 对 策略 的 “局 部 ”程度 
对 策略 也 会 得 到 较 长 的 比 对 
得 到 短 而 且 紧 凑 的 重合 结果 

替换 矩阵 给 出 了 一 组 分 
矩阵 是 通过 一 种 简化 的 蛋白 








。 如 果 匹 配 的 分 值 比 错 配 的 罚 分 高 
结果 。 如 果 错 配 的 分 值 将 匹配 得 分 


值 %， 分 别 对 应 于 将 氨基 酸 j 用 所 








得 多 ， 即 使 局 部 比 
完全 抵消 ， 一 般 会 


EM i HR 一些 


质 模 型 产生 的 。 这 个 模型 包括 氨基 酸 出 现 频率 p, 和 两 


两 替换 频率 9y 这 两 个 参数 ， 这 些 参 数 可 以 通过 已 有 的 自然 生成 的 蛋白 质 之 间 的 比 


对 得 到 。 稀 有 氨基酸 之 间 的 





匹配 得 分 可 能 比 普通 氨基 酸 之 间 的 





匹配 得 分 大 ， 而 两 


个 可 以 互 换 的 氨基 酸 之 问 的 错 配 。 其 得 分 也 要 比 两 个 功能 上 毫 无 关联 的 氨基 酸 之 
间 的 错 配 得 分 大 。 分 值 为 非 负数 的 错 配 代表 某 种 相似 性 或 者 保守 替换 。 其 他 类 型 
的 蔡 换 则 基于 氨基 酸 之 问 的 关系 。 这 种 关系 主要 体现 在 氨基 酸 的 遗传 密码 、 物 理 
(CFSE, RERAMREAT Pp EBB Mo 

PEAXE TR] A REBT DI Be eI OR, IRAE 
行 比较 。 阿 特 体 尔 ( Altschul ) 3d}, EAER RRE, ARAL AERA 


接地 看 做 时 一 化 月 标 频率 的 对 数值 所 组 成 的 矩阵 。 这 中 由 了 





ky -ifa 


"ANS pip;) 


FF 替换 矩阵 可 以 写成 


(1.4) 
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其 中 4 是 缩放 因子 。 改 变 4 会 改变 绝对 分 值 ， 但 不 改变 不 同 局 部 比 对 的 相对 分 值 ， 
因此 不 会 影响 比 对 结果 。[ 5 

最 简单 的 计 分 抢 阵 是 恒 等 怎 阵 ， 该 失 阵 中 所 有 半角 元 素 取 相同 的 正 值 (匹配 分 
值 * )， 而 所 有 的 非 对 角 元 素 到 相同 的 负 值 〔 错 配 分 值 了 )。 JERR (Nielsen) 曾经 讨 
论 过 这 种 情况 。'”1 同一 矩阵 可 能 来 自 于 可 能 的 氨基 酸 痊 换 的 最 简单 模型 ， 这 个 模 
型 中 ，20 个 氨基 酸 等 概率 出 现 ， 并 且 非 对 角 元 素 代表 的 痊 换 出 现 的 概率 也 相同 : 

1 














or 。 对 于 所 有 i 
{ 对 于 i=j 
We oie; a.s) 


换 名 话说， 如 果 一 个 氨基 酸 发 生 突变 ， 它 变 为 其 余 19 个 氨基 枉 的 概率 都 是 5。 

根据 匹配 分 值 和 错 配 分 值 比 率 9/ 的 不 同 ， 存 在 一 系列 不 同 的 恒 等 矩阵 。 如 
果 s=- 了， 局 部 比 对 要 得 到 正 分 值 ， 所 包含 的 匹配 要 比 错 配 多 得 多 ， 由 此 产生 短 而 
强 的 比 对 结果 ， 如 果 s*>- 5 了， 一 个 匹配 就 可 以 补偿 多 个 错 配 ， 产 生长 而 弱 的 比 对 。 
在 不 考虑 空位 的 恒 竺 矩阵 局 部 比 对 中 ， 两 条 序列 匹配 氨基 酸 所 占 的 比例 p 有 最 小 
值 ， 即 





p> (1.6) 


s-5 

我 们 定义 突变 性 r= 8/9， 即 序列 特定 位 置 上 的 氨基 酸 改 变 成 随机 人 氨基酸 ( 包 
括 原来 的 氨基 酸 ) 的 可 能 性 。r=0 对 应 于 没有 发 生 改 变 ， 而 r=1 则 对 应 于 进化 距离 
无 限 大 。 


由 于 所 有 gj 的 总 和 必须 为 1， 利 用 关系 式 209+380 5=1 可 以 计算 目标 概率 





4 和 g= (1.7) 


= 1 a 
~ 20+ 3807 20+380r 
并 通过 01.4) 计算 si 的 取 值 。 由 于 分 值 比率 8/ 3 与 4 无 关 而 是 r 的 函数 ， 我 们 可 以 
通过 分 值 比率 计算 r 值 。 . 

PALES, BERR AUP EST 


于 之 a8) 














其 中 sj 的 取 值 都 经 过 归 一 化 ， 因 此 和 =ln2 [ 对 应 地 ，( 1.4 ) 中 使 用 以 2 为 底 的 对 
数 ] 。 移 阵 的 相对 炳 可 以 用 来 解释 比 对 中 每 个 位 置 所 携带 的 信息 量 。( 读者 可 以 
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从 附录 B 中 了 解 炉 和 相对 炉 等 所 有 信息 论 方面 的 概念 。) 

计算 替换 矩 阵 时 所 假设 的 进化 皮 离 越 短 ， 对 应 的 和 就 越 大 。 如 果 进 化 距离 为 
0 (=0 )， 则 错 配 罚 分 为 无 穷 大 ， 这 代表 完全 不 允许 空位 ; 相对 灶 也 等 于 氨基 酸 
分 布 的 精 : H=- E; plog Pi,。 对 于 恒 等 矩 阵 模型 ，4Elog:20=4.32 (比特 )， 局 部 
比 对 问题 就 简化 为 寻找 两 个 序列 中 最 长 的 相同 子 序列 。 相 反 ， 如 果 进 化 最 离 趋向 
于 无 穷 大 (re1 )，gy 取 值 的 所 有 差异 消失 而 且 4{ 移 于 0。 


1.4.5 ”保守 序列 和 序列 标识 


研究 分 子 结合 位 点 的 特异 性 时 ， 一 种 通常 的 方法 是 首先 从 比 对 中 生成 保守 序 
列 ( consensus seqnence )， 并 选择 最 常 出 现 的 核 苷 酸 或 者 氨基 酸 作 为 特定 位 置 的 
RE. 4] 这 样 的 过 程 丢弃 了 许多 信息 ， 而 且 如 果 将 所 得 到 的 结果 当做 识别 蛋白 
子 或 核酸 的 分 子 特异 性 的 可 靠 评价 ， 则 会 严重 误导 进一步 的 研究 。 一 种 较 好 的 
代 方 法 是 同时 观察 所 有 位 置 上 所 有 核 苷 酸 (RAER) 出 现 的 频率 。 

施 奈 德 及 其 合作 者 在 序列 每 个 位 置 的 香农 信息 量 的 基础 上 ， 发 展 了 一 种 图 形 

[ 视 化 技术 一 一 序列 标识 方法 ( sequence logo approach ). [47] 这 种 思想 强调 了 单 
体 出 现 频率 对 均匀 分 布 的 偏离 。 在 均匀 分 布 中 ， 所 有 有 单 体 出 现 的 概率 为 相同 值 P。 
对 于 核 背 酸 序列 比 对 ，p=0.25; 对 于 氨基 酸 序列 比 对 ，p=0.05。 

大 多 数 功能 位 点 附近 的 频率 分 布 与 均匀 分 布 都 有 显著 的 偏离 。 对 于 特定 位 置 ;， 
实际 观察 到 的 单 体 出 现 频率 与 随机 状况 的 偏离 可 以 通过 以 下 公式 进行 计算 


























器 








z| 








U E 














a 
D(i) = l0gy/A}+ 5) p, (@)l08; peli) (19) 
k=l 


其 中 4| 表 示 字符 集 的 字符 个 数 ， 一 般 为 4 或 20。 由 于 计算 公式 中 使 用 以 2 为 底 的 对 
数 ，D(D 的 单位 通常 用 “每 个 单 体 多 少 比特 ”来 衡 最 。 对 于 氨基 酸 比 对 ， 仅 当 特 
定位 置 上 只 有 一 个 完全 保守 的 氨基 酸 时 ，DGD) 取 最 大 值 ， 为 log:20~ 4.32。 同 样 ， 
对 于 核 苷 酸 序列 比 对 ， 偏 差 最 大 可 以 达到 2 比特 。 

使 用 序列 标识 可 视 化 技术 时 ， 可 以 利用 一 列 符号 显示 一 条 保守 序列 的 细节 。 
列 的 总 高 度 等 于 D(D) 值 ， 而 每 个 单 体 符号 k 的 高 度 与 它 在 这 个 位 置 上 的 概率 px 成 
正比 。 利 用 不 同 的 颜色 描绘 单 体 可 以 表示 其 物理 化 学 性 质 ， 如 带电 量 、 朴 水 性 ， 
也 可 以 表示 核 音 酸 相互 作用 特性 ， 如 氢 键 势能 的 强 绊 。 与 覆盖 比 对 区 域 的 权重 抢 
阵 中 的 数字 相 比 ， 标 识 技术 的 功能 强大 且 很 容易 使 用 。 如 果 对 位 点 周围 区 域 的 D 
进行 到 加， 可 以 得 到 特定 类 型 位 点 ( 例如 结合 位 点 ) 的 累积 信息 。D 可 以 代表 结 
合 位 点 的 结合 能 的 强 弱 ， 并 用 来 比较 在 全 基因 组 和 蛋白 质 序列 中 寻找 真 位 点 所 需 
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BIRB 7] 利用 信息 论 








图 





1-8 和 1-9 给 出 两 个 
第 一 个 例子 来 自 大 瞬 杆 菌 9 


此 对 的 例子 ， 








表述 序列 保全 
大 量 假 位 点 中 发 现 所 需 的 结合 位 点 这 个 上 


翻译 起 始 位 点 的 比 对 结果 。 在 真 核 基 | 


程度 的 公式 ， 我 们 可 以 将 蛋白 质 如 何 
题 以 一 种 定量 的 方式 解决 。! 421 

它们 利用 标识 技术 显示 单 体 出 现 的 频率 。 
组 的 细胞 核 中 ， 


从 





站 

















起 始 三 联 体 一 起 始 密码 子 一 一 非常 保守 ， 几 乎 总 是 AUG， 代 表 和 蛋氨酸。 对 于 原 


核 生 
人 码 子 位 置 的 保守 程度 究竟 多 大 。 
所 有 的 翻译 起 始 位 点 ， 因 此 标识 方法 可 





物 ， 基 他 几 个 起 始 三 联 体 出 现 的 闫 率 也 较 大 ， 认 标识 方法 可 
全 1 南 于 相同 的 大 肠 杆菌 核糖 体 复合 体 需要 识别 





以 显示 这 三 个 密 


lal ee 与 三 联 体 序列 互相 作 








用 的 


FRE, RG ES’ 端的 保守 的 夏 











达尔 加 庶 ( Shine-Dalgarno ) 





序列 可 以 通过 碱 基 配 对 ， 将 maRNA 定 位 在 核 集体 的 正确 位 轩 。 


如 果 进 行 计 算 时 ， 仅 仅 使 用 具有 村 


是 这 种 方法 也 可 以 用 于 辨别 具有 差异 的 模式 ， 这 些 模 代 属于 数 : 
ricus) ih, 


于 极端 嗜 热 古 细 菌 (Sulfolobus solfata 
处 于 操纵 子 (operon) 内 部 还 是 操纵 子 





同 信号 的 序列 得 到 的 标识 信息 量 很 大 。 但 
FERIA TRS}. X 
译 起 始 模式 还 依赖 于 基 
的 起 始 端 ， 或 者 仅仅 是 一 TREMER, 























在 最 近 的 研究 中 , [5231 在 操纵 子 内 部 基 








的 上 游 发 现 了 一 条 夏 因 一 达尔 加 诺 序列 ， 











但 是 这 条 序列 并 不 与 操纵 子 的 第 一 个 革 因 或 孤立 的 基 


使 用 两 种 不 同 的 翻译 起 始 机 制 。 














相对 应 。 这 表明 这 种 生物 











图 1-8 ”大肠 杆菌 中 的 翻译 起 始 三 联 体 比 对 的 标识 
图 中 的 翻 详 起 始 位 点 在 21 位 点 ， 编 码 蛋 氨 酸 的 起 始 三 联 体 ATG 在 标识 中 异常 显著 且 居 主 导 地 位 。 资 料 


来 自 参 考 文献 [422 ] 。 
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1-9 尾 一 些 哺乳 动物 氨基 酸 序列 片断 的 标识 ， 这 些 片断 利用 w 螺 旋 的 起 始 位 
smut, O 1 标识 覆盖 了 过 小 区 域 : 左边 最 经 常 出 现 卷曲 和 转角 构象 ， 而 右 
边 则 可 以 在 这 列 符号 的 上 方 发 现 一 些 在 o 册 旋 中 频繁 出 现 的 氨基 酸 。 有 一 个 现象 
很 有 意思 ， 在 N 端 即 a 螺旋 的 幅 状 结构 部 位 ， 氨 基 酸 的 分 布 比 螺 施 自 身 中 的 分 布 更 
BARE, > 而 C 端 螺旋 的 标识 显示 出 另外 一 段 的 加 帽 作用 ( capping )。 帽 状 
结构 部 分 的 残 基 很 有 可 能 也 是 这 种 类 型 二 级 结构 的 一 个 集成 部 分 ， 通过 其 侧 链 的 
迄 键 稳定 了 螺旋 中 的 偶 极 。[”1 折枝 中 也 具有 一 个 相似 的 定 界 区 域 , PBA, 
它 代 表 这 种 结构 的 终止 。! 231 





























1-9 a 螺旋 N 端 比 对 的 标识 


所 用 的 数据 是 已 知 三 维 结构 的 哺乳 动物 蛋白 质 的 非 元 余数 据 组 。-”! co 螺旋 的 起 始 位 置 在 标识 中 的 位 点 
7e 一 级 结构 由 卡 布 希 { Kabsch ) ARMA. 7 该 区 域内 构成 上 的 最 大 偏 乎 位 于 螺旋 起 始点 之 前 。 


序列 标识 对 于 迅速 考察 功能 位 点 的 上 下 游 或 者 某 些 区 域 的 功能 特性 非常 胡 
用 ， 而 且 它 们 还 能 显示 在 多 大 程度 上 存在 某 种 序列 信号 。 如 果 对 很 多 糖 基 化 位 点 
进行 比 对 并 观察 其 标识 ， 就 可 以 立刻 揭示 其 氨基 酸 组 成 的 差异 程度 。 这 样 的 分 析 
不 仅 可 以 用 来 构造 预测 方法 的 结构 ,而 且 可 以 用 来 考察 哪些 样本 可 以 被 准确 预测 。 
如 果糖 基 化 的 丝氨酸 和 苏 氮 酸 上 下 游 具有 共同 的 特性 ， 在 设计 预测 算法 时 可 以 将 
两 者 结合 考虑 。'””1 如 果 两 者 的 上 下 游 序列 的 特性 有 显著 差异 ， 则 必须 针对 两 种 
残 基 类 型 分 别 设计 不 同 的 方法 。 在 细胞 环境 中 ， 这 样 一 种 差别 也 提示 了 将 精 类 转 
移 到 这 两 个 残 基 上 的 酶 并 不 相同 。 

使 用 单 体 的 序列 标识 方法 ， 实 际 上 是 独立 对 待 位 点 上 下 游 的 每 个 位 置 的 。 从 
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标识 中 无 法 得 到 不 同位 置 的 关联 情况 ， 也 无 法 了 解 不 同 单 体 同时 出 现 的 频率 是 否 
超过 了 利用 单独 位 置 的 统计 量 所 预测 的 标准 。 不 过 ， 这 种 可 视 化 技术 很 容易 处 理 
双核 苷 酸 或 者 双 肽 出 现 的 频率 ， 并 以 符号 组 合 的 方式 显示 位 置 之 问 的 两 两 关联 。 
(1.9 ) 中 字符 集 的 大 小 4 要 做 由 应变 化， 而 公式 的 形式 仍然 不 变 。 

图 1-10 是 一 个 双核 车 酸 的 标识 ， 序 列 样本 来 自 于 植物 阿布 属 拟 南 并 Arabidopsis 
thaliana) 内 含 子 的 剪接 供 体 ( donor ) 位 点 。 在 标识 中 部 ， 我 们 可 以 观察 到 众所周知 
的 位 于 剪接 接合 处 的 保守 双核 苷 酸 GT 和 GC (几乎 看 不 到 )。 标 识 还 显示 出 ,在 内 含 
子 区 域 第 三 个 双核 华 酸 位 置 ，GT 出 现 的 频率 远 远 超过 预想 的 值 。 
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图 1-10 ”双子 叶 植 物 阿布 属 拟 南 并 的 内 含 子 剪接 供 体位 点 的 标识 


该 标识 基于 外 显 子 /内 含 子 过 滤 区 域 中 不 重 秋 的 双核 并 酸 出 现 频率 ， 在 〔 1.9 ) 中 取 |Al=16 使 用 标准 的 香 
农 信息 量 加 以 计算 。 数 据 集 来 自 于 从 GenBank 中 提取 的 非 郊 余数 据 组 。[2271 


BH (1.9) 的 另外 一 种 略 有 差别 的 形式 是 基于 相对 箭 或 Kullback-Leibler 不 
对 称 散 度 (asymmetric divergence measure ) 的 ，[2423411 如 下 式 所 示 ; 


HOHP) )= Satos al (110) 





这 个 标识 公式 量化 了 观察 到 的 概率 分 布 P(i ) 与 参考 概率 分 布 2&(i ) 之 间 的 区 别 。 
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不 一 定 依赖 于 比 对 中 的 位 置 。 在 显示 相对 炉 时 ， 每 个 字符 的 高 度 作 为 出 现 频 率 


的 百代 指标 ， 还 可 以 道 过 相应 位 四 的 背景 标定 频率 得 到 。[**] 
为 了 让 标识 成 为 特异 性 的 可 千 


描述 ， 进 入 比 对 的 数据 必须 不 存在 元 余 ， 这 是 


一 个 基本 条 件 。 如 果 多 个 序列 都 包含 了 某 个 特定 位 点 ， 就 会 对 概率 分 布 产 生 影 


响 。 





简单 的 标 训 可视化 技术 以 及 与 其 相对 应 的 权重 矩阵 方法 ， 都 是 对 矩阵 中 每 个 
位 置 的 独立 分 析 。 我 们 将 会 在 第 6 章 中 阐述 神经 网 络 如 何 进一步 拓展 这 种 分 析 方 
法 。 通 过 计算 “ 正 ” 位 点 比 对 结果 中 单 体 的 出 现 频率 与 参考 分 布 中 频率 的 比值 ， 
权重 第 阵 对 每 个 位 党 赋予 相应 的 权重 值 。 给 定 一 个 序列 ， 如 果 将 每 个 位 置 上 单 体 
所 对 应 的 权重 的 对 数值 求 和 ， 可 以 得 到 一 个 分 值 。 我 们 还 可 以 调整 选取 一 个 阅 值 





以 实现 对 于 真 位 点 的 最 佳 识 别 。 所 谓 最 人 
异 度 加 以 考察 的 。 














的 标准 ， 是 根据 预测 方法 的 敏感 度 或 特 





神经 网 络 具 有 对 序列 数据 进行 非 线性 处 理 的 能 力 ， 因 此 在 计算 时 可 以 考虑 不 


同位 蜀 之 问 的 相互 关联 。“ 非 线性 ”本 质 上 意味 着 : 在 一 个 











类 别 与 两 个 特征 中 的 








一 个 相关 ， 而 不 是 与 两 者 同时 相关 的 情况 下 ， 网 络 有 可 能 进行 正确 的 预测 。 而 线 


性 方法 则 不 能 正确 处 理 这 种 两 个 特征 的 情况 。 


对 于 更 加 复杂 的 情况 ， 一 个 特定 类 型 的 位 点 可 能 要 用 许多 特征 加 以 表示 ， 相 
互 之 间 的 关联 也 具有 更 加 复杂 的 模式 。 通 过 特征 定义 正确 处 理 这 种 情况 的 能 力 


使 神经 网 络 算法 成 为 序列 数据 分 析 领 域 的 重要 工具 。 




















糖 茜 化 位 点 就 是 这 样 一 个 便于， 其 中 带 有 正 电荷 和 人 负 电荷 的 氨基 酸 都 可 能 是 
糖 基 化 位 点 并 发 挥 功能 ， 然 而 这 两 种 类 型 的 氨基 酸 不 能 同时 出 现 。 传 统 的 单 体 权 














重 矩 阵 不 能 处 理 这 种 普通 情形 。 当 然 ， 对 于 某 些 预测 问题 ， 可 以 利用 双 肽 或 输 人 


特征 更 加 复杂 的 权重 矩阵 来 避 开 这 个 困难 。 另 外 一 种 处 理 策略 是 将 所 有 的 正 样本 
分 成 两 类 或 更 多 类 ， 每 一 类 都 用 相应 的 权重 矩阵 代表 。 这 样 一 种 方法 上 的 转变 在 
某 些 情况 下 可 以 有 效 地 将 一 个 非 线性 问题 转化 为 线性 问题 。 
线性 方法 的 缺陷 在 于 不 能 减少 无 用 的 证 据 。 对 于 线性 方法 ， 甚 至 


一 般 而 言 ， 
在 生物 机 制 每 次 只 能 接受 两 种 证 据 中 一 种 的 情况 











下 ， 也 必须 将 两 种 类 型 的 证 据 结 


合并 相 加 而 得 到 较 高 的 分 值 。 非 线性 方法 则 可 以 避免 这 种 情况 ， 只 要 在 许多 特征 
的 组 合 证 据 超过 某 个 标准 时 ， 简 单 地 降低 分 值 即 可 解决 这 个 问题 。 

对 于 许多 问题 ， 将 输 和 人 数据 的 表示 方法 进行 某 种 良好 的 变换 ， 实 际 上 是 序列 
空间 拓扑 结构 转换 工作 的 一 部 分 。 这 种 转换 将 序列 空间 转 为 联系 更 紧密 的 空间 ， 


从 而 使 许多 孤立 的 数据 集 可 以 根据 它们 所 属 的 功能 类 别 林 
相关 性 和 特征 经 











五 融合 。 由 于 序列 中 的 





常 在 很 大 程度 上 是 末 知 的 《至 少 在 我 们 开始 预测 分 析 时 )， 因 此 
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1.5 


神经 网 络 的 非 线性 处 理 能 力 使 其 在 执行 许多 不 同 任务 的 初期 具有 很 大 的 优势 。 

多 年 来 ， 揭 拼 何 种 分 析 方法 在 人 工 智能 领域 -- 直 是 一 件 非常 武断 和 个 人 化 的 
事情 。 在 牛 物 序 列 数据 研究 领域 ， 显 然 如 果 我 们 事先 知道 所 要 寻找 的 特征 ， 那 么 
多 种 不 同方 法 的 性 能 大 致 相当 。 在 分 析 为 特定 任务 而 训练 的 神经 网 络 的 权重 〔 参 
见 第 6 章 ) 时 ， 如 果 发 现 某 些 特定 的 序列 特征 会 提高 (或 降低 ) 神经 网 络 的 预测 
结果 的 正 〔 或 负 ) 预测 性 能 ， 经 常 就 可 以 从 中 构造 出 间 样 具有 很 高 区 分 能 力 的 判 
别 规 则 。 许 多 人 在 研究 中 体会 到 : 芳 数 据 相对 规范 ， 就 能 够 迅速 构造 近似 最 优 方 
法 ， 这 种 情况 下 机 肉 学 习 方 法 是 很 有 效 的 ， 而 要 从 杂乱 无 章 的 数据 直接 归纳 很 有 
用 的 规则 就 要 艰难 得 多 。 
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24 - HEF (von Heijne ) 在 他 早期 关于 序列 分 析 的 书 中 提出 这 样 - -个 问题 : 
“ 当 你 得 到 序列 信息 之 后 能 做 些 什么 ? ” DOl 本 书 所 描述 的 方法 和 应 用 就 是 为 了 
回答 这 个 问题 。 适 于 应 用 机 器 学 习 方 法 进行 处 理 的 问题 将 在 以 后 的 章节 详细 阐述 。 
这 里 我 们 将 列 出 一 些 在 概率 理论 体系 下 分 析 DNA、RNA 和 和 蛋白 质 序列 数据 时 需要 
解决 的 计算 问题 ， 并 加 以 评述 。 对 于 某 些 情况 ， 我 们 会 用 实验 测定 的 牛 化 特性 表 
未 特 定 序列 ， 而 不 是 有 限 字 符 集中 的 符 导 。 


1.5.1 序列 分 析 


无 论 分 析 的 是 细胞 中 的 DNA 还 是 RNA， 大 多 数 情 况 下 我 们 将 使 用 单 链 序列 。 
一 个 例外 是 分 析 DNA 的 结 购 元件， 例如 可 讽 曲 性 (bendability ) 或 内 在 弯曲 势 
(intrinsic bending potential )， 此 种 分 析 必 须 建立 在 双 螺 旋 的 真正 的 双 链 阐述 基础 
上 。 

真 核 生物 mRNA 前 体 的 内 含 子 剪接 位 点 和 分 支点 。 中 断 RNA 和 和 蛋白质 编 码 基 
的 间 插 序列 可 以 用 接合 处 的 局 部 特征 刻画 ， 但 是 不 能 由 这 些 特征 完全 决定 。 预 
测 蛋 号 质 编码 基因 中 的 内 合子 是 极 具 挑 战 性 的 计算 问题 。 对 于 一 些 生物 COR 
酵母 )， 核 基因 组 的 内 含 子 很 少 而 且 其 剪接 位 点 很 保守 。 而 对 于 包括 人 在 内 的 其 
他 许多 真 核 生物 ， 准 确 界定 编码 区 和 非 编码 区 ， 并 由 此 从 基因 组 DNA 序 列 中 预测 
成 熟 的 mRNA 序 列 是 一 个 重要 的 问题 。 职 母 中 的 内 信子 主要 位 于 编码 核糖 体 蛋 白 
质 的 基因 中 。 许 多 生物 的 基因 ， 会 根据 组 织 形态 和 发 育 阶段 的 不 同 ， 选 择 不 同 的 
剪接 方式 ， 这 个 事实 使 问题 更 加 复杂 。 为 了 解决 这 个 问题 ， 人 们 已 经 采用 许多 不 
同类 型 的 权重 矩阵 、 神 经 网 络 种 隐 马 氏 模 型 进行 分 析 。 
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原核 生物 和 真 核 生 物 的 基因 发 现 。 机 器 学 习 方法 已 被 用 于 通过 计算 方法 发 现 
因 的 几乎 所 有 步 双 。 这 些 步骤 包括 翻译 起 始点 和 终止 点 的 确定 ， 定 量 刻 西 潜在 
阅读 框 〈《reading frame )， 前 楼 位 点 的 框 中 断 ， 外 显 子 识别 ， 基 因 建 模 以 及 序列 
接 等 。 通 常会 将 多 种 不 同 机 器 学 习 方法 组 合 起 来 应 用 。 
启动 子 识别 一 一 转录 起 始 和 终止 。 转 录 起 始 是 基因 表达 的 第 一 步 ， 构 成 了 生 
全 控 制 的 一 个 关键 点 。 当 RNA 案 合 酶 ( 催化 从 DNA 模 板 制造 RNA 的 反应 的 酶 ) 
4 别 启 动 子 序列 并 与 之 相 结合 ， 表 明 转 录 起 始 事件 发 生 。 这 类 预测 问题 的 困难 
在 于 作为 府 合 酶 识别 底 物 的 DNA 信 号 相似 程度 各 异 ， 而 且 在 表达 水 平 的 调控 中 
有 其 他 许多 调控 因子 参与 。 隐 马 氏 模 型 灵活 的 匹配 能 力 对 于 解决 这 个 问题 一 一 
其 是 对 于 真 核 生物 一 非常 理想 ,但 是 人 们 也 采用 了 输入 结构 经 过 精心 设计 的 
经 网 络 。 

基因 表达 水 平 。 如 果 我 们 已 经 通过 实验 得 到 基因 序列 与 其 表达 水 平 之 癌 的 关 
系 ， 就 可 以 利用 预测 已 知 启动 子 信号 强度 的 方法 来 推测 基因 表达 水 平 。 一 种 蔡 代 
方法 是 根据 编码 序列 米 预 测 基 因 表 达 水 平 ， 这 时 人 们 利用 密码 子 (codon) 使 用 
频率 ;在 某 些 情形 下 ， 还 可 以 使 用 相应 的 密码 子 适 应 指标 对 序列 的 统计 量 进行 编 
码 。 

DNAS MRA A SAE RM, KREME (flexibility) 影响 或 决定 了 细 
胞 内 的 许多 反应 。 其 中 之 一 就 是 转录 起 始 ， 利 用 序列 信息 预测 转录 起 始 或 者 螺旋 
的 曲率 /可 弯曲 性 ， 对 于 理解 大 部 分 与 DNA 有 关 的 现象 很 有 价值 。 

核 小 体 定位 信和 号。 与 DNA 采 性 相关 的 一 个 问题 是 ， 真 核 生 物 的 DNA 在 染色 
质 中 被 组 蛋白 八 聚 体 缠绕 时 ， 该 DNA 序 列 的 位 置 关系 如 何 。 巾 于 这 种 位 置信 号 间 
隔 10.1~10.6bp， 或 随 着 双 链 时 旋 的 每 个 完全 握 转 而 出 现 ， 因 此 检测 周期 性 的 方法 
需 此 对 于 非 整数 值 敏感 一 一 就 像 隐 马 氏 模 型 中 的 弹性 匹配 能 力 。 

序列 聚 类 及 类 的 拓扑 结构 。 由 于 序列 数据 木 可 避免 地 存在 完 余 ， 所 以 将 序列 
组 成 一 定 类 别 的 聚 类 技术 很 重要 ， 与 此 同时 还 查 佑 计 组 间 的 距离 。 自 组 织 图 形式 
的 神经 网 络 和 隐 与 氏 模 地 在 这 方面 非常 有 用 。 与 其 他 来 类 技术 相 比 ， 这 两 种 方法 
的 一 个 优势 在 于 能 很 好 地 处 理由 几 干 条 序列 组 成 的 大 数据 集 。 

RNA 二 级 结构 预测 。 当 前 ， 对 于 mRNA 、tRNA 利 rRNA 可 能 的 二 级 结构 进行 
计算 和 排序 最 为 有 力 的 方法 是 基于 能 量 最 小 化 原则 。 这 里 的 能 量 包括 碱 基 对 的 两 
个 碱 基 之 问 或 是个 碱 基 对 之 间 的 自由 能 ， 以 及 碱 基 对 的 堆积 能 量 。[5282601 由 于 许 
多 原因 ， 如 环 之 间 的 相互 作用 使 所 需 评 价 的 结构 数目 十 分 巨大 ， 使 得 这 种 方法 存 
在 很 多 困难 。 与 传统 的 寻找 最 佳能 量 构象 的 最 小 化 方法 难以 成 功 相 比 ， 神 经 网 络 
利文 法 方法 在 处 理 这 些 特征 时 取得 了 一 些 成 功 。 
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DNA 和 RNA 的 其 他 功能 位 点 和 类 别 。 人 们 对 许多 不 同类 型 的 功能 位 点 和 类 别 
也 分 曾 进 行 预测 ， 其 中 包括 内 含 子 的 分 支点 ， 核 糖 体 结合 位 点 ， 蛋 白质 一 DNA 
相互 作用 中 的 motif ( 超 二 级 结构 模 体 ), O 其 他 调控 信号 ，DNA 螺 旋 类 别 ， 限 制 
了 酶 切 位 点 ，DNA 解 链 温度 ，EST 序 列 中 的 阅读 框 的 断 性 缺失 (reading frame- 
interrupting deletion )， 根 据 系 统 进化 类 别 对 核糖 体 RNA 的 分 类 ， 以 及 根据 物种 区 
别 对 于 tRNA 序列 的 分 类 。 

蛋 自 质 结构 预测 。 这 个 领域 的 研究 促进 了 机 器 学 习 方 法 在 序列 分 析 中 的 应 用 ， 
钱 (Qian) 和 塞 诺 斯 基 (Sejnowski ) 在 关于 蛋白 质 二 级 结构 的 预测 工作 方面 做 出 
了 显著 的 贡献 。[4271 事 实 上 蛋白 质 结构 的 所 有 方面 都 已 经 利用 机 器 学 习 方法 进行 
过 处 理 。 可 以 精确 列 出 的 预测 内 容 包 括 : 二 级 结构 的 类 别 ， 残 基 接 触 的 距离 限制 ， 
折 双 类 型 ， 二 级 结构 的 分 级 或 内 容 ， 半 胱 氮 酸 间 的 双 硫 键 ， 蛋 白质 家 族 的 隶属 关 
Z, 螺旋 跨 膜 区 及 其 对 应 细胞 腊 的 拓扑 ， 膜 蛋白 类 别 ( 跨 膜 区 域 的 残 基数 )， 
MHC motif 以 及 氨基 酸 的 水 溶性 (solvent accessibility )。 

蛋白 质 功能 预测 。 预 测 所 研究 的 与 功能 相 联系 的 特征 包括 : 亚 细 胞 定位 ， 分 
雍 性 时 白 的 信号 肽 剪 切 位 点 ， 信 号 肽 剪 切 位 点 的 重新 设计 (用 于 优化 前 切 效率 )， 
信号 锚 (signal anchor) ( 卫 型 膜 蛋白 的 N 端 部 分 )， 与 糖 类 相 结合 的 糖 基 化 位 点 
〈 糖 基 化 的 状态 和 类 型 决定 了 循环 的 周期 ， 这 在 现象 识别 和 分 选中 有 重要 作用 )， 
与 转录 后 修饰 有 关 的 磷酸 化 和 其 他 修饰 作用 磷酸 化 位 点 的 存在 表明 相应 的 蛋白 
质 参与 了 细胞 间 的 信号 转 导 、 细胞 周期 控制 , 或 作为 营养 和 环境 压力 信号 的 中 介 ), 
时 白质 的 不 网 结合 位 点 和 激活 位 点 〈 与 酶 的 活性 相关 ) 等 。 

蛋白 质 家 族 分 类 。 要 预测 蛋白 质 的 家 族 关 联 ， 可 以 对 蛋白 质 的 二 肽 频率 进行 
全 局 编码 ， 并 将 其 输入 自 组 织 图 和 前 馈 神 经 网 络 。 此 外 基于 局 部 motif 的 预测 也 有 
助 于 探测 较 远 的 家 族 关系 。 

蛋 自 质 降 解 。 在 所 有 生物 中 ， 蛋 白质 都 必须 降解 并 且 再 循环 。 在 具有 免疫 系 
统 的 生物 中 ， 降 解 的 特异 性 对 于 实现 免疫 系统 功能 及 正确 区 分 自身 和 异体 分 子 是 
非常 基本 的 。 激 活 降解 通路 有 许多 不 同方 法 。 在 许多 通路 中 ， 蛋 白质 都 要 存 蛋白 
酶 水 解 切割 前 先进 行 解 折 毒 ， 由 此 可 以 推测 ， 和 直 白 质 的 特异 性 是 与 序列 模式 而 不 
是 与 它 的 三 维 结构 密切 相关 。 因 此 ， 这 类 问题 非常 自然 地 仍 要 利用 机 器 学 习 方法 
解决 ， 而 面临 的 主要 困难 是 实验 确认 的 数据 量 很 有 限 。 





















































® “motif” 一 词 在 文中 用 于 表示 江 白 质 的 超 二 级 结构 模 体 或 者 一 段 具 有 特色 功能 的 生物 序列 (WARRE 
级 结构 模 体 )， 没 有 较为 恰当 的 中 文 对 应 河 ， 因 此 在 文中 不 予 译 出 。 一 一 译 者 注 
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21 简介 : 贝 叶 斯 建 模 





机 器 学 习 基本 上 直接 来 源 于 一 门 古老 的 概率 学 科 ， 统计 模型 拟 合 。 和 统计 模 
型 拟 合 一 样 ， 机 器 学 习 的 目的 是 通过 建立 适当 的 统计 模型 ， 从 一 个 数据 集 D 中 找 
灵活 构建 由 大 量 参数 刻画 的 模型 ， 
由 机 器 自动 处 理 数据 ， 使 信息 提取 过 程 尽 可 能 地 实现 自动 化 。 计 算 机 学 习 的 灵感 
来 自 于 生物 大 脑 的 学 习 能 力 。 因 此 ， 使 用 了 一 个 特殊 的 词汇 “学 习 ” 来 刻画 这 一 


出 有 用 的 信息 。 机 器 学 习 的 一 大 优点 就 是 可 以 


统计 模型 拟 合 过 程 。 





显然 ， 以 下 两 方面 技术 的 迅速 发 展 促进 了 机 器 学 习 方法 的 发 展 : 
。 可 支持 大 规模 数据 库 和 数据 集 的 感知 器 和 储存 器 设备 





。 可 处 理 更 复杂 模型 的 计算 能 力 


正如 参考 文献 [ 455 ] 中 指出 的 ， 机 器 学 习 方法 适 崩 
相应 理论 很 不 完善 的 领域 。 这 正 是 计算 分 子 生物 学 使 用 机 


于 那些 拥有 大 量 数据 但 
器 学 习 方 法 的 原因 。 





随 着 序列 数据 的 迅速 增长 ， 与 有 待 发 现 的 生物 学 知识 相 比 ， 我 们 现 有 的 生物 


学 知识 非常 有 限 。 在 生物 学 以 及 其 他 数据 信息 





FE 富 的 学 利 


， 特 别 是 计算 生物 学 中 


人 们 必须 认识 到 现 有 知识 尚 具有 高 度 的 不 确定 性 : 许多 知识 是 未 知 的 或 原本 就 是 


错误 的 。 所 以 计算 生物 学 家 经 常 要 面临 妇 纳 和 推论 问题 : 
模型 ， 发 现 或 修正 未 知 的 或 现 有 的 生物 学 知识 。 什 么 是 


利用 可 处 理 的 数据 建立 





E 确 的 模型 类 型 以 及 什么 





样 的 模型 复杂 度 合适 ?哪些 细节 重要 ， 而 哪些 可 以 忽略 ? 如 何 根据 已 有 的 知识 和 
有 时 是 有 限 的 数据 ， 比 较 不 同 的 模型 并 选 出 最 好 的 一 个 ? 简 而 言 之 ， 我 们 怎么 知 
道 一 个 模型 是 好 的 模型 ? 这 些 问题 在 机 器 学 习 方 法 中 更 显得 重要 ， 因 为 复杂 模型 
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的 参数 通常 是 几 千 个 甚至 更 多 ， 并 且 序 列 数据 ( 经常 是 多 余 的 ) 木 身 存在 噪声 。 

在 数据 不 足 的 情况 下 ， 试 图 通过 设置 基 些 参数 ， 使 机 器 学 习 中 使 用 的 模型 能 
够 反映 研究 对 象 儿 乎 折 有 的 行为 ， 这 足 不 现实 的 。 而 为 了 避免 模型 的 过 拟 合 ， 
倾 阅 于 采用 一 些 包含 较 少 参数 的 简单 异型 。 深 入 了 解 机 器 学 习 理 论 的 人 们 清楚 地 
知道 ， 许 多 约束 条 件 隐 含 在 模型 结构 之 中 。 所 以 ， 证 模型 完全 重 现 研究 对 象 的 行 
为 ， 这 是 极其 困难 的 。 更 重要 的 是 ， 正 如 参考 文献 [397 ] 中 所 指出 的 ， 若 由 于 
可 利用 的 数据 很 少 而 选择 简单 的 模型 ， 这 种 做 法 意义 也 不 是 很 大 。 人 然而， 简单 模 
型 仍 被 广泛 应 用 ， 而 且 有 时 效果 也 很 好 。 但 实际 上， 数据 量 的 多 少 与 数据 源 的 复 
杂 度 完全 无 关 。 不 难 想像 - .个 非常 复杂 的 数据 源 可 能 只 拥有 相对 较 少 的 数据 量 的 
情况 。 因 此 印 使 在 数据 十 分 缺乏 的 情况 下 ， 也 不 能 用 机 器 学 习 方 法 来 代 蔡 先 验 知 
识 。 但 在 任何 情况 下 ， 推 理 和 归纳 始终 是 机 器 学 习 和 计算 生物 学 的 中 心 问题 。 

在 进行 确定 性 推理 时 ， 人 们 | 使 用 演 缂 的 方法 。 所 以 在 诸如 物理 、 数 学 等 信息 
贫乏 的 学 科 中 ， 最 高 级 的 - 些 更 论 都 表述 为 公理 体系 。 演 绎 法 不 会 产生 争议 。 绝 
大 多 数 人 都 认可 使 用 以 下 的 特定 方式 进行 演绎 ， 如 果 X 能 推出 7 且 X 为 真 ， 则 了 必须 
为 真 。 这 是 布尔 代数 的 本 质 ， 也 是 所 有 数字 计算 机 的 基础 。 而 让 存在 不 确定 性 的 
情况 下 进行 推理 ， 常 使 用 归纳 和 推断 的 推理 方法 :如果 X 能 推出 y 且 7 为 真 ， 则 X 极 
有 可 能 为 真 。 有 一 组 简单 的 特定 规则 用 于 只 纳 、 模 型 选择 和 比较 ， 这 一 方法 称 为 
贝 时 斯 统计 推断 ， 对 于 这 个 令 人 惊讶 的 方法 ， 人 们 至 今 了 解 较 少 。 贝 叶 斯 方法 已 
经 存在 一 段 时 间 了 ,但 是 直到 最 近 放 开始 系统 她 渗透 到 科学 和 技术 的 不 同 领域 ， 
并 取得 了 有 用 的 成 果 。: ?2331 尽管 在 有 些 人 看 来 ， 机 器 学 习 只 是 模型 和 学 习 算 
法 的 “电子 化 联合 体 "， 但 我 们 相信 贝 叶 斯 体系 为 不 同 算法 技术 的 统 -提供 了 一 
个 举 实 的 理论 基础 。 下 面 将 对 贝 叶 斯 体系 做 一 个 简要 概述 。 在 后 面 的 章节 中 ， 我 
们 将 这 一 体系 应 用 于 一 些 特定 类 型 的 模型 和 问题 。 

可 以 简单 点 观 地 描述 贝 叶 斯 方法 的 岂 想 。 贝 叶 斯 方法 对 任意 命题 、 假 设 或 模 
型 都 赋予 了 一 个 伏 真 度 。( 本 书 中 “假设 ”和 “模型 ”在 本 质 上 是 同 义 的 ， 但 
“模型 ”倾向 于 包含 带 许多 参数 的 复杂 “假设 "。) 具体 地 说 ， 要 合理 地 实现 归纳 
过 程 ， 应 该 遵循 以 下 三 个 步 又 ， 

1. 清楚 地 描述 出 假设 或 模型 ， 包 括 所 有 背景 信息 和 数据 。 

2. 使 用 概率 论 的 语言 赋予 假设 一 个 先 验 概率 。 

3. 在 推断 过 程 中 使 用 概率 计算 ， 特 别 是 根据 已 知 数据 估计 假设 的 后 验 概率 

(或 者 置信 度 )， 得 到 惟一 的 解 。 

这 一 种 方法 看 起 来 当然 是 合理 的 。 注 意 贝 叶 斯 方法 并 不 直接 关注 新 的 假设 或 

模型 产生 的 过 程 ， 它 只 关注 利用 已 有 的 知识 和 数据 对 模型 进行 评价 。 而 这 种 评价 
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过 程 可 能 对 产生 新 的 思想 很 有 帮助 。 
但 是 为 什么 中 叶 斯 方法 如 此 引信 注 目 ? 为 什么 使 用 概率 论 的 语言 描述 ， 而 不 

用 其 他 的 方法 ?这 是 因为 从 严格 的 数学 意义 上 说 ， 它 是 进行 不 确定 性 推理 的 惟一 

- 致 的 方法 。 这 个 回答 令 人 吃惊 。 特 别 是 有 一 组 非常 简单 的 常识 性 公理 ， 即 考 克 
斯 一 杰 恩 斯 公理 ( Cox Jaynes axioms )， 可 以 证 实 贝 叶 斯 方法 是 推断 和 归纳 的 惟 
一 一 致 的 方法 。 根 据 考 克 斯 一 杰 恩 斯 公理 ， 似 真 度 完全 满足 所 有 的 概率 规则 。 因 
此 ， 推 断 、 模 型 选择 和 模型 比较 所 需要 的 仅仅 是 概率 运算 。 
在 下 一 节 中 ， 我 们 将 用 考 克 斯 一 杰 恩 斯 公理 给 出 贝 叶 斯 思想 的 一 个 简单 的 公 
理化 描述 。 为 了 简便 起 见 ， 我 们 没有 给 出 员 叶 斯 方法 的 任何 证 明和 历史 背景 ， 也 
没有 讨论 任何 与 统计 学 基础 有 关 的 存在 争议 的 问题 。 所 有 这 些 都 可 以 在 不 同 的 韦 
籍 和 文章 中 找到 ， 如 参考 文献 [ 51,63,122,433,284 ] 。 






































考 克 斯 一 杰 恩 斯 公理 


我 们 在 统计 推断 中 处 理 的 对 象 是 关于 客观 世界 的 命题 。 例 如 ， 一 个 典型 的 命 
题 X 是 “字符 A 出 现在 序列 0 的 第 ;个 位 置 。” 一 个 命题 不 为 真 即 为 假 ， 我 们 用 束 表 
示 命 肿 X 的 否 命 题 。 一 个 关于 客观 世界 的 假设 也 是 一 个 命题 ， 虽然 它 可 能 是 一 个 
由 许多 基本 命题 组 成 的 复杂 命题 。 模 型 M 也 可 看 做 一 个 假设 ， 不 同 之 处 在 于 模型 
通常 包含 带 大 量 参数 的 复杂 假设 。 在 参数 十 分 重要 的 情况 下 ， 我 们 将 假定 W= 
M《w )， 共 中 w 是 所 有 参数 组 成 的 向 量 。 一 个 复杂 的 模型 M 可 以 很 容易 地 简化 为 
一 个 二 值 命题 ， 形 式 为 “使 用 模型 M 解 释 数 据 D， 误 差 率 为 e”( 在 后 面 的 讨论 中 ， 
这 个 模糊 的 陈述 将 变 得 更 加 精确 )。 但 在 下 面 的 论述 中 ， 不 再 对 术语 “模型 ”和 
“假设 ”加 以 区 分 。 

虽然 命题 非 真 即 假 ， 我 们 仍然 需要 在 不 确定 性 存在 的 情况 下 进行 推理 。 因 此 ， 
给 定 一 定量 的 信息 7 后 ， 我 们 可 以 将 每 一 个 假设 和 一 个 似 真 度 或 置信 度 〈 也 称 为 可 
TERTE) 联系 起 来 ， 用 符号 x( XI1 ) 表示 。x( XI) 在 这 里 只 是 一 个 符号 ， 
很 显然 ， 想 要 得 到 一 个 科学 的 论述 ， 我 们 必须 对 置信 度 进行 比较 。 即 对 任意 两 个 
命题 X 和 Y, 我 们 或 者 认为 x 比 Y 可 信 , 或 者 认为 Y 比 X 可 信 ，, 或 者 认为 二 者 同样 可 信 。 
我 们 用 符号 “>” 表 示 这 种 关系 ， 因 此 ， 如 果 X 比 Y 可 信和 风 记 为 x( X11) >x( Yi )。 
不 可 否认 ， 要 想 使 这 种 比较 更 加 切合 实际 ， 关 系 “>” 应 该 具有 传递 性 。 也 就 是 
说 如 果 X 比 Y 可 信 ， 而 Y 比 2 可 信 ， 则 Xx 一 定 比 z 可 信 。 于 是 我 们 得 到 第 一 个 公理 : 


aC XIN) >x( YIN) Hal YH) >al Zi) BRR (XI) >x( ZI) (2.1) 
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这 个 公理 是 很 显然 的 ， 它 还 有 一 个 重要 的 推论 :“>” 是 一 个 序 关系 (ordering 
rejationship )， 因 此 置信 度 可 以 用 实数 表示 ， 即 从 现在 开始 x( XU) 表示 一 个 数 。 
这 当然 不 意味 着 这 个 数 很 容易 计算 ， 只 是 说 明 这 个 数 是 存在 的 ， 并 且 假 设 之 间 的 
序 关系 可 以 用 这 些 实数 的 序 关 系 表示 。 为 了 更 深入 地 讨论 和 计算 置信 度 ， 我 们 还 
需要 一 些 另外 的 公理 或 规则 ， 这 些 公理 和 规则 便于 合理 地 使 用 实数 来 表示 置信 
度 。 

AMAR, 我 们 只 需要 另外 两 个 公理 便 足 以 把 我 们 的 理论 完全 确定 下 来 。 
这 个 公理 化 的 描述 归功 于 考 克 斯 和 杰 恩 斯 [138283] 为 了 更 好 地 理解 这 两 个 公理 ， 
可 以 设想 一 个 由 简单 开关 组 成 的 世界 , 在 每 一 时 刻 某 个 给 定 的 开关 不 是 开 就 是 关 。 
因此 ， 在 某 一 特定 时 刻 ， 这 个 世界 中 所 有 的 基本 假设 或 命题 都 有 一 个 简单 的 形式 
“开关 X 开 ”或 “开关 X 闭 ”。( 对 于 序列 分 析 问 题 ， 读 者 可 以 认为 开关 X 的 开 、 闭 与 
字符 X 是 否 存在 相对 应 ， 这 并 不 妨 但 对 内 容 的 理解 。) 显然 ， 如 果 我 们 觉得 “开关 
X 为 开 ”( 命题 X) ETS, WA “FAXA” (AE X ) 就 不 那么 可 信 。 因 此 ， 
对 于 任 一 给 定 的 命题 X，Fr( Xl1) 和 x( XI) 之 间 应 存在 某 种 关系 。 无 需 对 这 种 关 
系 进行 任何 假设 , 可 以 合理 地 认为 这 种 关系 对 于 所 有 开关 和 所 有 类 型 的 环境 信息 
即 所 有 命题 X 和 1 都 是 相同 的 。 因 此 ， 可 以 用 数学 形式 将 第 二 个 公理 描述 为 :存在 
一 个 函数 F 使 得 






































al XW) =F[ x( Xl) ] (2.2) 


第 三 个 公理 要 稍微 复杂 一 些 。 考 虑 两 个 开关 X 和 了 Y， 它 们 相应 地 有 四 种 可 能 的 
组 合 状态 。 那 么 ， 以 X 开 Y 闭 的 情况 为 例 ， 其 置信 度 依赖 于 开关 X 开 的 置信 和 度 ， 以 
及 在 已 知 开关 X 开 的 情况 下 开关 了 为 闭 的 置信 度 。 同 样 地 ， 这 种 关系 不 依赖 于 具体 
开 、 关 的 是 哪个 开关 ， 也 不 依赖 于 各 种 环境 信息 。 因 此 ， 可 以 用 数学 形式 将 第 三 
个 公理 描述 为 : 存在 一 个 函数 G 使 得 


x(X, YU) =G[ CX), xC YX, 1) (2.3) 


迄今 为 止 ， 我 们 并 没有 过 多 地 讨论 信息 7。; 对 应 于 所 有 可 用 的 信息 共同 构成 
的 一 个 联合 命 十 。/ 可 以 表示 背景 知识 ,例如 生物 大 分 子 的 一 般 结构 或 功能 信息 。 
I 也 可 以 是 特殊 的 实验 数据 或 其 他 数据 信息 。 如 果 需 要 集中 考虑 一 个 特定 的 数据 集 
D, WRIA C1, D )。 在 任何 情况 下 ，/ 可 以 是 不 固定 的 ， 它 可 以 由 任意 多 个 代 
表 命题 的 符号 进行 扩充 或 蔡 换 ， 正 如 (2.3) 的 右 端 所 表示 那样 。 例 如 ， 如 果 数 据 
是 以 顺序 的 方式 获得 的 ， 可 记 为 = O, Du …, Dp); 如果 /是 被 明确 定义 并 且 是 区 
定 的 ， 则 完全 可 以 将 它 从 这 些 公式 中 去 掉 。 
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计算 置信 和 度 的 方法 由 上 面 提 到 的 三 个 公理 完全 确定 。 特 别 地 ， 我 们 可 以 证 明 
存在 一 个 置信 度 比 例 因子 k， 使 得 P(ZY) =x (x( 1)) 在 10,1] 之 间 。 更 进一步 ， 
存在 一 个 x 使 得 P 是 惟一 的 ,并且 满 足 所 有 概率 理论 规则 。 若 置信 度 严 格 地 在 区 间 
[0,1] 上 了 到 值 ， 那 么 函数 FR 和 6G 一 定 由 F(x) =]-xz 和 G(r，y) =xy 给 出 。 这 里 不 再 
给 出 相关 的 让 明 ， 有 兴趣 的 读者 可 以 参阅 文献 [ 138,284 ] 。 从 而 ,第 二 个 公理 可 
以 改写 为 概率 的 加 法 规则 : 

















P(X) +P( XW) =1 (2.4) 
第 三 个 公理 可 以 改写 为 乘法 规则 : 
P(X, YU) =P(XI) P( YIX, 1) {2.5) 


由 此 ， 我 们 可 以 用 概率 来 代替 置信 度 。 值 得 注意 的 是 ， 如 果 不 存在 不 确定 性 ， 邑 
P(X) FORINT, 那么 作为 特殊 情况 ， 当 对 命题 进行 求 “ 反 ”和 和 求 “ 与 ”时 ， 
从 (2.4) 和 (2.5) 可 以 推导 出演 绎 或 布尔 代数 的 两 个 基本 规则 :( 1 “XR X” 
BAB: (2) 当日 仅 当 X 和 了 都 为 真 时 ,，“X 与 7” 为 真 。 使 用 对 称 性 
P(X, YW) =P( Y, XIF) 和 (2.5)， 可 得 刘 重 要 的 贝 叶 斯 定理 : 


P(YIx, r)P(xir) P(r|x, 7) 

PC BC) 

贝 叶 斯 定理 十 分 基本 ， 因 为 它 允 许 互 换 条 件 项 和 非 条 件 项 。 从 某 种 意义 上 说 ， 
由 于 它 确切 地 描述 了 如 何 根据 7 所 提供 的 新 的 信息 修正 xX 的 置信 度 P( XIr )， 从 而 得 
到 新 的 P( XY, 7)， 因 而 它 是 推理 或 学 习 的 过 程 。P( Xi ) 也 称 为 先 验 概率 ， 而 
P( XlY, 1) 称 为 给 定 Y 的 后 验 概率 。 车 能 够 不 断 地 补充 新 的 信息 ， 这 个 规则 显然 是 
可 以 迭代 的 。 在 本 书 中 ，P(X) 一 般 表 示 X 的 概率 。 然 而 要 明确 一 点 ，X 的 概率 依 
赖 于 上 下 文 ， 它 显然 不 是 一 个 通用 的 概念 ， 它 受 背景 信息 的 性 质 以 及 所 考虑 的 候 
选 假设 空间 的 影响 。 

最 后 ， 我 们 应 该 意识 到 存在 一 组 更 普遍 的 公理 ， 支 持 一 个 包括 贝 叶 斯 概率 理 
论 在 内 的 更 完备 的 理论 体系 。 这 就 是 关于 决策 或 效用 理论 的 公理 体系 ， 该 体系 注 
重 怎样 在 存在 不 确定 性 的 情况 下 得 到 “最 优 ” 的 决策 (SURRA) PPSS 无 
疑 地 ， 构 成 决策 理论 的 简单 公理 可 以 帮助 人 们 构造 和 评价 与 不 确定 的 环境 相 联系 
的 员 叶 斯 概率 ， 并 使 相关 的 期 望 收益 最 大 。 事 实 上 ， 一 个 更 具 一 般 性 的 理论 是 博 
FEE. 该 理论 的 不 确定 环境 包括 了 其 他 的 代理 人 或 博弈 者 。 由 于 本 书 的 重点 是 数 
据 建 模 ， 所 以 并 不 需要 这 些 更 一 般 性 的 公理 化 理论 。 








加 


xl. = =P(X|/) (2.6) 
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2.3 ” 贝 叶 斯 推断 和 归纳 


下 面 讨论 我 们 最 感 兴趣 的 统计 推断 ; 由 一 组 数据 D 导 出 一 个 参数 化 模型 M=MU w )。 

为 了 简化 问题 ， 下 面 的 等 式 不 再 给 出 背景 信息 {。 由 上 贝 叶 斯 理论 我 们 立即 可 以 得 到 
_P(D|M)P(M) _ PN 
Pmp- p = PO) PID) (2.7) 

先 验 概 率 P{ M) 表示 在 没有 得 到 任何 数据 之 前 所 估计 的 模型 M 为 真 的 概率 。 后 验 
概率 P( MID ) 表示 我 们 观测 到 数据 集 D 后 重新 计算 的 模型 M 为 真 的 概率 。 
PC DIM ) 是 指 似 然 度 。 

对 于 顺序 获得 的 数据 ， 我 们 有 








P(D'|M, Dt, D) 
P(p'lp', ,D™) 


换言之 ,修正 前 的 后 验 概率 P( MD, =, D!) 成 为 新 的 先 验 概率 。 出 于 技术 的 原 
， 这 些 概率 有 可 能 非常 小 ， 处 理 相应 的 对 数 要 容易 得 多 ， 因 此 


P(M[p';-, D'}=P(M[p' sD) (2.8) 





























logP( MID ) =logP (DIM) +logP ( M) -logP{ D) (2.9) 


为 了 将 公式 (29) 用 于 任何 种 类 的 和 模型， 我 们 需要 具体 说 明 先 验 概率 P( M ) 和 
数据 似 然 度 P( DIM )。 一 旦 先 验 概率 和 数据 似 然 度 定义 清楚 了 ， 初 始 的 建 模 工作 
就 完成 了 ， 剩 下 的 就 是 运用 概率 进行 计算 。 但 在 此 之 前 ， 让 我 们 先 简单 地 考察 一 
些 与 先 验 概率 和 做 然 度 有 关 的 常见 问题 。 


2.3.1 REE 


使 用 先 验 概率 是 贝 叶 斯 方法 的 一 个 优势 ， 因 为 它 允 许 将 先 验 知识 和 约束 条 件 
导入 建 模 过 程 。 由 于 先 验 概率 带 有 主观 性 ， 面 且 不 同 的 先 验 概率 会 得 到 不 同 的 结 
果 ， 所 以 有 时 这 个 优势 也 被 视 为 贝 叶 斯 方法 的 缺点 所 在 。 针 对 这 些 反 对 意见 ， 贝 
叶 斯 学 派 至 少 能 够 提供 四 种 不 同 的 解答 : 

1. 通常 说 来 ， 随 着 数据 量 的 增加 ， 先 验 概率 的 作用 减少 。 在 形式 上 ， 这 是 

为 负 对 数 似 然 度 -logP( DIM) 随 着 中 数据 量 的 增加 呈 线 性 增长 ， 面 先 验 
概率 -logP( M ) 保持 不 变 。 

2. 在 有 些 情 况 下 ， 可 以 使 用 一 些 客观 准则 ， 如 最 大 粹 ( MaxEnt )、 群 不 变性 



































第 2 章 机 器 学 习 的 基础 : 概率 理论 体系 47 





(group invariance ) 等 来 确定 无 信息 的 先 验 概率 值 ( 见 参考 文献 [228 ] )。 
3. 甚至 当 没 有 明显 提 到 先 验 概率 时 ， 他 们 也 被 隐 含 地 使 用 了 。 贝 叶 斯 方法 在 
解决 问题 时 ， 不 一 定 需 要 揭示 出 隐 含 的 先 验 概率 问题 。 
4. 最 后 ， 也 是 最 重要 的 ， 与 不 同 模型 及 模型 类 别 一 样 ， 不 同 的 先 验 概率 的 影 
响 可 以 在 贝 叶 斯 体系 内 通过 比较 相应 的 概率 进行 评估 。 
在 统计 学 界 有 一 个 争论 ， 芭 是 否 存在 一 个 对 所 有 情况 都 适用 的 决定 先 验 概率 
的 普遍 客观 原则 ， 最 大 业 是 否 就 是 这 样 的 一 个 原则 。 正 如 在 附录 B 的 最 后 部 分 简 
单 讨论 的 那样 ， 我 们 认为 这 种 普遍 原则 其 实 并 不 存在 。 由 于 选择 茶 种 先 验 分 布 以 
及 相应 的 数值 结果 一 直 隐 含 在 整个 概率 计算 过 程 中 ， 我 们 最 好 抱 着 尝试 的 态度 去 
选择 先 验 分 布 。 然 而 最 大 炉 在 一 些 特定 的 场合 还 是 有 用 的 。 为 了 完整 起 见 ， 现 在 
我 们 简单 概述 一 下 如 何 依靠 最 大 粹 原则 和 群 理论 来 确定 先 验 概率 ， 并 介绍 三 种 广 
证 使 用 的 先 验 分 布 。 


RA 

FRA SEG RIN SI A Fe EIT IL TA Fa SY BER A 
(AMIE (BRCM AS, WAIST A, AB 
录 B )。 因 此 得 到 的 先 验 分 布 是 “最 少 假设 的 ",“ 最 大 模糊 的 "， 或 具有 “最 大 不 
确定 性 "。 根 据 拉 普 拉 斯 “无 差别 原则 ”， 缺 乏 先 验 约束 将 导致 均匀 分 布 。 因 此 ， 
除了 参数 w 的 范围 以 外 没有 关于 w 的 可 用 信息 时 ， 在 此 范围 上 的 先 验 概率 皇 均匀 分 
布 是 非常 自然 的 选择 。 应 用 在 建 模 中 的 最 大 彤 可 以 由 分 布 或 相应 的 直方 图 确定 。 
最 大 米 等 价 于 使 用 炳 先 验 概率 P( P) =e “Pz, PH (P) PAI. RIE 
3.2 节 中 应 用 最 大 婉 并 对 其 做 进一步 讨论 。 最 大 粹 也 可 看 做 更 一 般 化 的 炉 概 念 ， 即 
最 小 相对 售 的 一 个 特例 (参见 附录 B )。 S] 


群 论 的 讨论 

在 许多 情况 下 ， 先 验 分 布 的 某 些 约束 条 件 可 以 用 群 论 的 术语 来 表达 ， 例 如 变 
换 群 的 不 变性 。 一 个 典型 的 例子 就 是 标 度 参数 ( scale parameter )， 例 如 高 斯 分 布 
的 标准 方差 c。 假 定 我 们 只 知道 c 的 范围 ， 表 示 为 es<ace*。 那 么 在 此 范围 内 ， 当 
变化 时 ， 它 的 密度 f (o) 不 变 ， 因 此 了 应 与 deya 成 正比 。 经 过 简单 的 归 一 化 可 
以 得 到 























































































































fo)= + (2.10) 


这 与 logc 在 区 间 [ a, b ] 上 均匀 分 布 ， 或 c 和 or 的 密度 相同 是 等 价 的 。 群 不 变性 分 
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析 的 其 他 例子 可 见 参考 文献 [ 282,228 ] 。 


常用 的 先 验 分 布 : BMA. MAAA M Dirichlet t 

当先 验 概率 分 布 不 是 欠 匀 分 布 时 , 对 于 连续 变量 有 两 个 实用 的 标准 先 验 分 布 : 
高 斯 (或 正 态 ) 先 验 分 布 和 伽 玛 先 验 分 布 。 均 值 为 0 的 高 斯 先 验 分 布 常 被 用 来 初 
始 化 神经 网 络 中 各 单元 之 间 的 权重 。 单 参数 的 高 斯 先 验 分 布 形式 如 下 : 





2 
N(wlu, 3) = 5 oof 228) (2.11) 
联系 上 文 ， 高 斯 分 布 具 有 优越 性 的 原因 之 一 是 它 与 最 大 粹 原则 相关 联 。 当 可 
用 的 信息 只 有 连续 分 布 密度 的 均值 4 和 方差 时， 高 斯 密度 Nt u, o) 可 以 达到 最 
大 【参见 附 录 B ). 17! 
具有 参数 w 和 4) 的 伽 玛 密度 ， 在 w>0 时 形式 如 下 ， 


T(wa, A) = wee” (2.12) 


x 
(a 
其 他 情况 下 ， 该 密度 均 为 0。 其 中 To) 是 伽 玛 函 数 rw) = 上 ed, A 
整 a 和 4， 并 改变 w， 合 玛 密度 可 以 有 一 个 很 大 范围 的 先 验 分 布 ， 并 且 能 将 密度 集 
中 在 参数 空间 的 一 个 特定 区 域内 。 当 参数 变量 单 边 有 界 时 ， 例 如 在 标准 差 (020) 
为 正 参数 的 情况 下 ， 爷 咏 先 验 分 布 是 十 分 有 用 的 。 

最 后 ， 对 于 在 本 书 中 起 着 非常 基本 作用 的 多 项 分 布 【 讽 如 在 序列 的 指定 位 置 上 
从 字符 集中 选 出 一 个 字符 )， 一 个 重要 的 先 验 分 布 类 别 是 Dirichlet 先 验 分 布 。92761 
具有 参数 w 和 向 量 O= (qrde) 的 概率 向 量 P= (po, pr) 的 Dirichlet 分 布 具有 如 
下 形式 : 





























K K prti 
pe =] (213) 


i=l i=l 


-_T(@) 
Dyg(P) = Thre) 


其 中 必 ，p;，gq;>0 并 且 王 p= gq;=1。 对 于 这 种 Dirichlet 分 布 ， 存在 E( p,) =q; 
Var(p;) =q; (1-g,) / (Qtl1)， 以 及 Cov(pi pj) =-9 9/( a+1)。 因 此 该 分 布 的 均 
值 为 0，a 决 定 了 该 分 布 曲 线 在 均值 附近 的 光滑 程度 。Dirichlet 先 验 分 布 之 所 以 重 
要 ， 是 内 为 它们 是 多 项 分 布 的 自然 共 元 先 验 分 布 ， 这 -点 将 在 第 3 章 中 加 以 证 明 。 
这 意味 着 在 共有 Dirichlet 先 验 分 布 的 多 项 分 布 中 ， 观 察 一 些 数据 后 得 到 的 后 验 参 
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数 分 布 也 具有 Dirichlet 分 布 的 形式 ,Dirichlet 分 布 可 以 看 做 贝塔 分 布 向 多 维 的 推广 ， 
它 也 可 被 解释 为 分 布 P 的 空间 上 的 最 大 彤 分 布 ， 它 满足 关于 平均 距离 的 约束 条 件 ， 
这 个 平均 距离 是 该 分 布 与 由 2 和 a 决定 的 参考 分 布 之 间 的 距离 ( 如 相对 炳 定义 的 距 
离 ， 参 见 附录 B )。 


2.3.2 ”数据 似 然 度 


要 想 定义 P( DIM )， 必 然 要 掌握 如 何 从 模型 W 得 到 一 个 不 同 的 观测 集 D : 在 
贝 叶 斯 体系 中 ， 序 列 模型 必须 是 概 举 形 式 的 。 除 了 自己 产生 的 数据 外 ， 确 定性 的 
模型 赋予 其 他 数据 的 概率 都 为 0。 这 在 生物 学 上 显然 是 不 合适 的 ， 这 可 能 也 是 由 
贝 叶 斯 思想 产生 的 一 个 主要 的 教训 。 如 果 没 有 如 实 给 定 似 然 度 ， 序 列 模型 的 科学 
论述 一 一 它们 如 何 拟 合 数 据 以 及 它们 之 间 怎 样 进行 比较 一 一 是 不 可 能 的 。 

似 然 度 问题 显然 与 变异 及 噪声 问题 相关。 生物 序列 本 身 就 存在 噪声 ， 而 进化 
使 随机 事件 的 效应 放大 ， 最 终 导致 变异 。 特 定 个 体 序列 与 一 个 家 族 ( 如 一 个 蛋白 
质 家 族 ) 中 的 “平均 ”序列 之 间 不 匹配 和 存在 差异 ， 这 是 必然 的 ， 并 且 必 须 进行 
基 化 。 因 为 同样 的 DNA 序 列 或 氨基 酸 序列 在 同一 物种 的 不 同 个 体 之 间 是 不 同 的 ， 
在 不 同 物种 之 问 这 种 差异 会 更 大 ， 所 以 经 常 需要 用 概率 的 观点 来 考虑 模型 。 事 实 
上 ， 过 去 使 用 的 大 量 模型 或 多 或 少 使 用 了 启发 式 的 方法 ， 却 没有 清晰 地 指出 其 概 
率 意 义 。 一 旦 他 们 的 概率 意义 表述 清楚 ， 这 些 方法 的 实际 作用 就 一 目 了 然 了 。 从 
概率 角度 进行 处 理 不 仅仅 淤 清 各 种 问题 ， 使 论述 更 严格 ， 还 能 经 常 提示 新 的 建 模 
方法 。 

似 然 度 的 计算 当然 是 与 模型 相关 的 ， 无 法 就 其 一 般 性 进行 讨论 。 在 2.4 节 中 ， 
我 们 将 给 出 一 些 用 于 推导 模型 的 一 般 性 原则 ， 其 中 似 然 度 的 计算 并 不 困难 。 但 是 
读者 需要 认识 到 ， 不 论 使 用 什么 准则 来 衡量 模型 和 数据 之 间 的 差异 或 误差 ， 这 些 
准则 都 必须 是 来 自 一 个 基本 的 概率 模型 ， 而 且 需 要 明确 地 给 出 这 一 基本 的 概率 模 
型 ， 并 使 之 符合 贝 叶 斯 分 析 的 检验 。 事 实 上 ， 如 果 具 有 参数 w 的 模型 M=M(w ) 由 
某 个 需要 最 小 化 的 误差 函数 F(w, D) >>0 来 评价 ， 那 么 相关 的 似 然 度 可 以 定义 为 


















































g7 D) 


(2.14) 
z 





(Di) = 








其 中 z=| ep 是 保证 概率 积分 为 的 时 一 化 因子 [统计 力学 里 的 分 制 函数 
(partition function) ] 。 结 果 ， 最 小 化 误差 函数 与 最 大 似 然 合计 (ML) 等 价 , 或 
者 更 广义 地 ， 与 最 大 后 验 概率 ( MAP ) 估计 等 价 。 特 别 是 ， 当 计算 误差 的 平方 和 
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来 进行 参量 比较 时 这 是 一 种 常见 的 做 法 )， 意 味 着 将 模型 默认 为 一 个 高 斯 模型 。 
这 里 以 贝 叶 斯 观点 阐述 了 概率 假设 的 新 含义 ， 这 必 将 成 为 指导 模型 与 数据 匹配 的 
准则 的 基础 。 


2.3.3 ”参数 估计 和 模型 选择 


现在 我 们 来 看 通常 的 贝 叶 斯 推断 方法 。 可 以 通过 比较 两 个 特定 的 模型 4 和 MM 
的 概率 P( MID ) 和 P( MID) 来 比较 这 两 个 模型 。 通 常 的 目的 之 一 就 是 要 发 现 或 
估计 出 某 一 组 模型 中 的 “最 优 ”模型 ， 即 : 寻求 一 组 参数 w， 使 得 后 验 概 率 
P(MID ) 或 log P( MID ) 最 大 ， 而 相应 的 误差 最 小 ( 参见 附录 A )。 这 就 是 MAP 估 
计 。 由 于 正 值 便于 处 理 ， 也 使 用 等 价 的 最 小 化 -log P( MID ): 


€=-log P( MID) =-log P( DIM) -log P( M ) +log P( D) (2.15) 


从 优化 的 观点 来 看 ， 先 验 概率 的 对 数 起 到 了 正则 因子 (regularizer) 的 作用 ， 
正则 因子 就 是 一 个 附加 的 惩罚 项 ， 它 可 以 用 来 体现 附加 的 约束 ， 如 平滑 性 等 。 注 
意 ,〈2.15 ) 中 的 P( 了 ) 起 到 归 一 化 常数 的 作用 ， 它 不 依赖 于 参数 w， 因 此 也 与 优 
无 关 。 如 果 对 于 所 有 考虑 的 模型 ， 先 验 概率 P( M ) 取 相同 值 ， 那 么 问题 就 简化 
为 寻找 P( DIM ) Blog P( DIM) 的 最 大 值 ， 这 就 是 ML 估计 。 总 而 言 之 ， 本 书 以 及 
机 器 学 习 应 用 中 的 大 部 分 内 容 都 是 基于 MAP 估 计 的 ， 即 最 小 化 下 式 ， 















































£=-log P( DIM) -log P(M) (2.16 ) 
或 更 简单 的 ML 估计 ， 即 最 小 化 下 式 ， 
€=-log P( DIM) (2.17) 


在 最 有 意思 的 模型 中 , 需要 优化 的 函数 十 分 复杂 ， 其 形式 不 能 通过 解析 求解 。 
因此 需要 采取 迭代 或 随机 方法 ， 如 梯度 下 降 法 〈 gradient descent) 或 模拟 退火 算 
法 【simulated annealing )， 而 最 后 得 到 近似 的 或 次 优 的 解 。 

贝 叶 斯 推断 采用 选 代 形式 。 第 一 步 是 在 模型 类 中 找到 满足 约束 条 件 的 最 有 可 
能 的 模型 ， 然 后 再 从 中 寻找 最 优 解 。 但 需要 注意 的 是 ， 仅 当 概率 分 布 P( MID ) 的 
最 优 解 惟一 旦 周围 的 曲线 形状 很 尖锐 时 ， 该 最 优 解 才 真正 有 效 。 在 不 确定 性 很 高 
并 且 可 用 数据 相对 较 少 的 情况 下 ， 这 一 方法 就 不适 用 了 。 因 此 ， 贝 叶 斯 方法 对 于 
模型 全 空间 上 的 函数 P( MD) ( 而 并 不 只 是 最 大 值 ) 更 感 兴趣 ， 准 确 地 说 ， 贝 叶 
斯 方法 是 合计 P (MID ) 的 期 望 值 。 因 此 对 于 预测 问题 、 多 余 参 量 的 边缘 化 以 及 类 
别 比 较 之 类 的 问题 需要 进行 更 高 级 的 员 叶 斯 推断 。 
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23.4 预测、 多 余 参 数 的 边缘 化 和 类 别 比 较 


考虑 如 下 的 预测 问题 : 对 于 一 个 术 知 的 参数 化 函数 户 ， 给 定 一 个 输入 *， 想 要 
输出 y。 很 容易 证 明 ， 其 最 优 预 浏 由 下 面 的 期 望 给 出 


(y= Í, Fo(X)P(wD) cw (2.18) 


这 个 积分 是 每 个 可 能 的 模型 六 PMT S AA BS BEP (wl) 加 权 后 
的 平均 。 另 一 个 例子 是 边缘 化 过 程 ， 其 中 后 验 概 率 参 数 分 布 的 积分 仅 对 参数 的 -一 
个 子 集 进 行 ， 这 个 子 集中 的 参数 被 称 为 多 余 参数 。 在 概率 论 体系 中 ， 概 率 被 定义 
为 被 观测 到 的 频率 ， 而 参数 分 布 的 概念 并 没有 定义 ， 因 此 无 法 计算 多 余 参 数 的 积 
分 。 最 后 ， 人 们 也 常 遇 到 是 个 模型 类 Ci 和 C2 的 比较 问题 。 为 了 在 贝 时 斯 体系 中 比 
较 C, 和 Ca:， 我 们 必须 利用 贝 叶 斯 理论 计算 P( CIDP ) 和 P( CID): PCCID) = 
PCDIC) PCC) PCD), 除了 先 验 概率 P( C )， 还 必须 通过 所 有 模型 类 的 平均 来 
计算 “实测 概率 ”P( PIC ): 
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P(DIC) = J Pe w|C)dw =f (ov C)P(w]C)dw (2.19) 


相似 的 积分 形式 还 出 现在 层次 模型 (hierarchical model) 和 超 参数 中 ( 详 见 
下 文 )。 当 似 然 度 P( Dhw, C) 在 其 最 大 值 附近 形成 形状 较 尖锐 的 蜂 时 ， 利 用 这 个 
模型 ， 期 望 值 可 以 用 最 大 概率 值 近似 。 但 是 通常 来 说 ,使 用 (2.18 ) 和 (2.19) 
的 积分 形式 ， 需 要 更 好 的 近似 法 一 一 例如 使 用 蒙特 卡 罗 采 样 法 [412866] 这 将 在 
第 4 章 中 简要 介绍 。 然 而 这 些 方法 的 计算 量 很 大 ， 而 且 并 不 适用 于 所 有 考察 的 模 
型 。 本 书 最 关注 似 然 度 计算 和 第 一 层次 的 贝 叶 斯 推断 (ML 和 MAP )。 更 高 层次 的 
推断 方法 的 研究 | 分 活跃 ， 这 些 方法 应 该 在 任何 可 能 的 情况 下 被 考虑 到 。 在 更 高 
层次 的 推断 方法 中 ， 可 能 的 计算 能 力 当 然 是 一 个 重要 的 因素 。 


2.3.5” 奥 卡 姆 剃刀 原则 


正如 2.1 节 最 后 指出 的 那样 ， 在 可 用 的 数据 不 充足 的 基础 上 选择 简单 的 模型 是 
没有 意义 的 。 但 是 在 其 他 因素 都 相同 的 情况 下 ， 人 们 应 尽量 选用 简单 的 假设 ， 而 
非 复杂 的 。 这 就 是 糯 卡 姆 着 力 原 则 ( Deckham's razor )。 正 如 一 些 研究 者 指出 的 ， 
奥 卡 姆 剃刀 原则 至 少 通过 两 种 方式 自动 体现 在 贝 叶 斯 体系 中 。[285331 首先 ， 人 们 
很 容易 选择 那些 对 复杂 模型 进行 惩罚 的 先 验 概率 。 即 便 没 有 这 些 先 验 概率 ， 参 数 
化 的 复杂 模型 也 倾向 于 与 数据 其 大 的 空间 相 一 致 。 由 于 似 然 度 P( DIM ) 在 数据 空 
间 上 的 和 必须 为 !， 如 果 P( DM) 覆盖 了 数据 空间 的 大 部 分 ， 那么 这 个 数据 集 的 
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2.4 


似 然 度 的 平均 值 将 较 小 。 央 此 对 于 观察 数据 ， 在 其 他 条 件 一 致 的 情况 下 ， 复 杂 模 
型 相应 地 得 到 较 小 的 似 然 度 。 


2.3.6 ”最 小 描述 长 度 


另 一 种 建 模 方法 是 最 小 描述 长 度 (minimum description length, MDL } 1*6] 
MDL 与 数据 压缩 及 信息 传输 的 概念 有 关 ， 它 的 目标 是 通过 通信 信道 传输 数据 。 
“如 实 ”传输 数据 并 不 经 济 ; 非 随机 的 数据 包括 结构 和 宛 余 ， 因 此 必须 进行 压缩 。 
好 的 数据 模型 应 该 抓 住 数 据 的 结构 特征 并 进行 有 效 的 压缩 。 最 优 的 模型 压 缮 是 使 
描述 数据 所 需 的 总 信息 长 度 最 小 的 模型 。 它 包括 了 指定 压缩 模型 所 需 的 长 度 和 经 
模型 压缩 后 数据 的 长 度 。 通 常 ，MDL 与 贝 叶 斯 思想 密切 相关 。 根 据 香农 的 通信 理 
论 ， 具 有 概率 p 的 事件 的 通信 所 需 信息 的 长 度 与 -logp 成 正比 。!48 1] 因此 最 可 能 的 
模型 具有 有 最 小 的 描述 长 度 。MDL 和 贝 叶 斯 思想 之 间 存 在 一 些 细微 的 差别 ， 但 这 些 
不 是 我 们 关心 的 问题 。 









































模型 结构 : 图 模型 及 其 他 技巧 


显然 ， 构 造 或 选择 合适 的 模型 是 由 数据 集 决 定 的 ， 同 时 还 与 建 模 者 的 经 验 和 
创造 性 有 关 。 这 里 ， 我 们 只 能 重点 讨论 决定 模型 结构 的 一 般 性 技术 和 技巧 中 的 一 
小 部 分 。 文 献 中 的 大 部 分 模型 可 以 看 做 这 些 简单 技术 的 组 合 应 用 。 由 于 在 机 器 学 
习 中 ， 贝 叶 斯 分 析 的 出 发 点 通常 是 高 维 的 概率 分 布 PC M，D )， 相 关 的 条 件 分 布 
和 边界 分 布 [ 后 验 概率 P( MID )、 似 然 度 P( DIM )、 先 验 概率 P( M ) 和 事实 概率 
PCD) ] ， 这 些 技术 和 技巧 可 以 被 视 为 分 解 、 简 化 和 参数 化 这 些 高 维 分 布 的 不 同 
方式 。 


2.4.1 ”图 模型 和 独立 性 


迄今 为 止 ， 最 常 使 用 的 简化 技巧 是 假定 变量 之 间 存 在 某 种 独立 性 ， 或 者 更 准 
确 地 说 ， 这 种 独立 性 是 变量 的 子 集 关 于 其 他 给 定子 集 的 条 件 独立 性 。 这 些 独立 性 
关系 常常 可 以 用 图 来 表示 ， 图 中 的 变量 用 节点 来 表示 ; 而 如 果 两 个 节点 之 间 没 有 
连接 ， 则 表示 它们 之 间 在 某 种 程度 上 是 独立 的 〔 准确 的 定义 可 以 参见 附录 C )。 关 
于 这 一 问题 的 综述 、 处 理 方法 和 相关 文献 的 索引 见 参考 文献 [ 416,350,557,121， 
499,106,348,286 ] o 

独立 性 关系 导致 了 一 个 基本 事实 : 所 有 变量 的 全 局 高 维 概率 分 布 可 以 化 为 几 
个 低 维 空间 的 简单 局 部 概率 分 布 的 乘积 。 这 些 低 维 空间 是 由 较 低 水 平 的 变量 聚 类 
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得 到 的 ， 这 些 聚 类 显示 在 图 的 结构 中 。 

根据 图 中 的 边 是 否 有 向 ， 图 模型 可 以 分 为 两 个 主要 的 类 别 。 无 向 边 在 相互 关 
系 对 称 的 问题 中 十 分 典型 ， 例 如 统计 力学 或 图 像 处 理 问题 。!2721"292] 在 无 向 图 的 
情况 小， 这 些 模型 常常 被 称 为 马尔 可 夫 随 机 场 《Markov random field )， 光 向 概 
独立 性 网 络 ， 波 耳 兹 曼 机 (Boltzmann machine )， 马 尔 可 夫 网 络 (Markov 
network ) 和 对 数 线性 模型 。 

有 向 模型 常用 于 相互 关系 不 对 称 的 问题 ， 可 以 反映 因果 关系 或 时 间 的 不 可 
Wyk, 42842461 这 在 专家 系统 和 所 有 基于 时 间 数 据 的 问题 中 十 分 典型 。 在 信和 号 
处 理 和 控制 中 广泛 使 用 的 卡尔 曼 滤 波 器 ( Kalman filter ) 可 以 看 做 属于 这 种 体系 。 
在 时 间 序 列 中 ， 独 立 性 假设 常常 用 在 马尔 可 夫 模 型 中 。 本 书 中 讨论 的 大 部 分 模 
型 一 一 特别 是 神经 网 络 模型 (NN ) 和 隐 马 氏 模 型 (HMM ) 一 一 都 是 有 向 边 的 
图 模型 的 例子 。 生 物 信息 学 中 图 模型 的 系统 性 应 用 将 在 第 9 章 中 介绍 。 这 类 典型 
模型 包括 : 贝 叶 斯 网 络 ， 置 信 网 络 ， 有 向 概率 独立 性 网 络 ， 因 果 网 络 以 及 影响 
图 (influence diagram )。 对 于 混合 的 情况 也 有 可 能 发 展 一 套 理论 ， 模型 中 有 向 
边 和 无 向 边 都 存在 。! 5 1 这 种 混合 的 图 形 也 称 做 链 式 独立 性 图 。 图 模型 的 基本 
理论 参见 附录 C。 

这 里 我 们 介绍 在 后 面 的 章节 中 要 用 到 的 一 些 符号 表示 方法 。 图 G 由 G=( V, E) 
表示 ， 其 中 集合 V 表 示 顶 点 ， 集 合 E 表 示 边 。 如 果 这 些 边 是 有 向 的 ， 我 们 就 记 为 
G=(V, 巨 )。 在 无 向 图 中 ，N(1) 表示 顶点 ;的 所 有 相 邻 顶点 的 集合 ，C(;i ) 表示 
所 有 与 连通 的 顶点 的 集合 。 因 此 有 


















































































































































NO)={iev: (i j)eE} (2.20) 
在 有 向 图 中 ， 我 们 用 明显 的 记号 N G) AN G) 分 别 表示 i 的 所 有 父 节点 和 所 有 
FR. BMC (i) 和 C* (i) 分 别 表 示 i 的 祖先 (或 “过 去 ") 和 后 代 (或 
“将 来 ”")。 所 有 这 些 记 号 都 可 以 扩展 到 任意 顶点 的 集合 1。 所 以 对 于 任意 1 V, 有 





N()={jeV: Jel (€ j)eE}-1 (2.21) 


这 也 称 做 是 1 的 边界 。 

一 个 基本 的 现象 是 ， 在 许多 应 用 中 所 产生 的 图 经 常 是 稀 醇 的 sparse )。 因 此 
全 局 概率 分 布 可 以 分 解 为 少量 的 几 个 较 小 的 启 部 概率 分 布 。 这 是 实现 用 于 学 习 和 
推断 的 有 效 计算 结构 的 关键 ， 这 种 计算 结构 基于 信息 在 图 的 各 个 变量 类 中 的 局 部 
传播 。 接 下 来 的 一 些 技术 基于 图 模型 的 一 般 思想 ， 但 也 党 常会 被 单独 提出 来 加 以 
研究 。 
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24.2 KER 


在 许多 模型 中 ， 一 个 典型 假设 是 : 数据 部 分 地 由 隐 含 《hidden ) 或 潜在 (latent ) 
变量 生成 ， 而 这 些 变量 或 者 不 包含 在 数据 记录 中 ， 或 者 根本 不 可 观测 。!!7] 缺失 的 
数据 也 可 以 看 做 隐 含 的 变量 。 网 络 中 的 隐 节 点 输出 或 HMM 的 状态 链 都 是 典型 的 隐 变 
Æ (hidden variable )。 另 一 个 隐 变 量 的 例子 则 是 混合 模型 的 系数 详 见 下 文 )。 显 然 ， 
模型 的 参数 ， 例 如 神经 网 络 的 权重 或 HMM 的 生成 /转移 概率 ， 在 某 种 意义 上 也 可 以 
视 为 隐 变 量 ， 尽 管 这 与 传统 的 术语 形式 不 符 。 隐 变量 模型 中 的 典型 推断 问题 是 估计 
隐 变 量 集 上 的 概率 分 布 以 及 相应 的 期 望 值 。 这 通常 是 大 规模 参数 化 模型 ( 如 HMM ) 
的 参数 估计 问题 中 的 子 问题 。EM 算 法 是 对 丢失 数据 的 模型 或 隐 变 量 模型 进行 参数 估 
计 的 重要 算法 ,我 们 将 在 第 4 章 中 详细 介绍 这 一 算法 ， 并 在 第 7 章 中 进一步 描述 它 在 
HMM 中 的 应 用 。 


2.4.3 ”层次 模型 


许多 问题 都 有 内 在 的 层次 结构 或 分 解 。 这 可 能 是 由 于 问题 中 存在 不 同 的 时 间 
标 度 或 长 度 标 度 引 起 的 。 上 面 描述 的 图 模型 中 的 子 集 类 ， 可 以 看 做 更 高 层次 的 表 
示 数 据 结构 的 图 模型 的 节点 [ 例如 参考 文献 [ 350 ] 中 关于 交叉 树 (junction tree ) 
的 概念 ] 。 与 之 相关 地 ， 模 型 参数 的 先 验 概率 也 可 以 具有 层次 结构 ， 其 中 某 一 
层 的 参数 可 以 递归 地 用 于 定义 下 一 层 参 数 的 先 验 分 布 。 随 着 模型 层次 的 提高 ， 
模型 的 参数 一 般 会 有 所 减少 。 一 个 特定 层 上 的 所 有 参数 常 被 称 做 是 该 层 的 “ 超 
BR’. 

超 参 数 能 够 在 控制 模型 的 复杂 性 和 结构 的 同时 提供 更 大 的 灵活 性 。 超 参数 具 
有 “高 增益 ”( gain )， 即 超 参 数 变量 的 微小 变化 可 以 导致 其 下 的 各 层 模型 发 生 巨 
大 变化 。 因 为 模型 的 先 验 概率 可 以 通过 一 定数 目 〔 通 常 很 少 ) 的 超 参 数 计算 ， 所 
以 超 参 数 也 可 以 实现 参数 约 简 。 先 验 概率 的 超 参数 计算 法 用 符号 表示 ， 即 


Pw) = | (wojPlajda (2.22) 


其 中 o 表 示 具 有 先 验 概率 P( a) 的 参数 w 的 超 参数 。 一 个 典型 的 例子 是 神经 网 络 中 
的 连接 权重 。 在 一 个 给 定 的 问题 中 ， 权 重 的 先 验 分 布 一 般 使 用 均值 为 kL， 标 准 差 
为 5 的 高 斯 分 布 。 每 一 个 权重 都 使 用 一 组 不 同 的 超 参数 H 和 wa， 将 使 模型 的 约束 大 
大 减少 。 可 以 认为 ， 在 一 个 给 定 节点 或 一 个 完整 层次 上 的 所 有 o 是 相同 的 。 在 更 
高 的 层次 上 ， 先 验 概率 可 由 下 层 的 几 个 oa 确定 ， 并 依 此 类 推 。 附 录 D 中 给 出 了 一 个 
分 层 的 Dirichlet 模 型 的 例子 。 
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2.4.4 ”混合 建 模 /参数 化 


由 于 使 用 的 模型 规模 通常 都 很 大 ， 参 数 化 问题 在 机 器 学 习 中 十 分 重要 。 即 使 
数据 和 参数 的 全 局 概率 分 布 已 被 分 解 为 较 小 的 局 部 概率 分 布 的 乘积 ， 作 为 独立 性 
假设 的 结果 ， 仍 常常 需要 对 子 模型 的 分 布 进行 参数 化 。 对 分 布 进行 参数 化 的 两 个 
常用 的 有 效 方法 是 混合 模型 和 神经 网 络 。 

在 混合 模型 中 ， 一 个 复杂 的 分 布 P 由 一 些 简单 或 规范 的 分 布 的 线性 凸 组 合 决 
定 ， 其 形式 如 下 : 

P= Sar (2.23) 
isl 
PA 20K VEGA, CRD A=1, DPA, CNT ACS 
数 (均值 、 标 准 差 等 ) 有 关 混 合 模型 的 概述 见 参考 文献 [173,522 ] 。 

神经 网 络 也 用 来 对 模型 进行 重新 参数 化 ， 即 将 模型 参数 作为 输 人 和 连接 权重 
的 函数 进行 计算 。 正 如 我 们 将 要 看 到 的 ， 神 经 网 络 之 所 以 有 此 功能 的 部 分 原因 是 
它 具 有 通用 允 近 特性 和 良好 的 灵活 性 ， 而 且 学 习 算 法 比较 简单 。 最 简单 的 例子 可 
能 就 是 回归 问题 ， 其 中 神经 网 络 可 以 作为 独立 变量 (输入 ) 的 函数 ， 用 来 计算 相 
关 变 量 的 均值 。 在 第 9 童 中 会 给 出 一 个 更 精确 的 例子 ， 其 中 神经 网 络 用 于 计算 
HMM 的 生成 参数 和 转移 参数 。 有 时 可 以 用 术语 “混合 ”来 描述 不 同 模型 类 结合 
的 情况 ,尽管 这 种 结合 可 以 采用 不 同 的 形式 。 

2.4.5 ”指数 分 布 族 

附录 A 简要 介绍 了 指数 分 布 族 的 相关 概念 。 这 里 需要 说 明 的 是 ， 许 多 最 经 党 

使 用 的 分 布 (高 斯 分 布 ， 多 项 分 布 等 ) 都 属于 这 个 系列 ， 使 用 指数 分 布 族 中 的 某 


个 分 布 常常 可 以 得 到 十 分 有 效 的 算法 。 指 数 族 的 概述 和 人 参考 文献 的 全 面 列表 见 参 
考 文献 [94] 。 



































小 结 


士 面 简要 地 介绍 了 在 建 模 和 推断 中 使 用 的 贝 叶 斯 方法 。 贝 叶 斯 方法 的 主要 优 
点 十 分 明显 : 它 以 坚实 的 概率 论 为 基础 ， 为 统计 推断 提供 了 一 套 原 则 和 灵活 的 方 
法 。 事 实 上 ， 贝 叶 斯 方法 被 广泛 使 用 的 一 个 重要 原因 是 : 它 构建 在 一 次 规模 非常 
小 的 公理 集合 之 上 并 具有 惟一 形式 。 我 们 认为 数学 家 可 能 比 生物 学 家 更 容易 接受 
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这 个 观点 。 

贝 叶 斯 体系 至 少 从 三 个 不 同 层次 阐明 了 一 系列 问题 。 首 先 ， 贝 叶 斯 体系 要 求 
明确 先 验 知识 、 数 据 和 假设 。 贝 叶 斯 体系 质疑 任何 知识 的 不 确定 性 ， 并 有 卫 鼓 励 这 
种 质疑 。 它 处 理 建 模 过 程 中 存在 的 内 在 主观 性 时 ， 并 不 是 简单 地 将 其 排除 在 模型 
之 外 ， 而 是 将 其 与 建 模 过 程 相 结 合 。 从 本 质 上 来 讲 ， 这 是 一 个 推动 模型 不 断 精 化 
的 选 代 过 程 。 第 二 ， 也 是 最 主要 的 ， 序 列 模型 必须 有 概率 意义 ， 还 可 以 用 定量 方 
法 描述 数据 的 变异 和 噪声 。 否 则 无 法 得 到 关于 模型 的 严格 科学 描述 ， 无 法 确定 模 
型 是 否 与 数据 相 吻合 ， 最 终 也 无 法 对 模型 和 假设 进行 比较 。 第 三 ， 贝 中 斯 体系 阐 
明了 如 何 进 行 推断 ， 即 如 何 利用 概率 比较 不 同 的 模型 、 量 化 误差 和 不 确定 性 。 特 
别 地 ， 它 能 够 为 提出 的 问题 给 出 明确 的 、 惟 一 的 解答 。 它 为 客观 建 模 定义 了 一 组 
必要 的 规则 。 进 行 推断 的 最 基本 步骤 是 根据 可 用 的 数据 和 相应 的 期 望 ， 利 用 概率 
理论 和 数值 估计 规则 计算 模型 的 似 真 度 。 

贝 叶 斯 方法 可 以 引导 我 们 更 好 地 理解 模型 的 弱点 ， 进 而 帮助 我 们 建立 更 好 的 
模型 。 另 外 ， 随 着 生物 大 分 子 、 结 构 、 功 能 和 调控 模型 数据 的 数量 、 范 围 和 复杂 
性 不 断 增 加 ， 很 客观 地 比较 不 同 的 模型 以 及 使 用 模型 进行 预测 变 得 十 分 重要 。 随 
着 数据 库 的 规模 和 复杂 性 不 断 增加 ， 模 型 比较 和 预测 越 来 越 成 为 中 心 问题 。 一 些 
新 思想 很 有 可 能 在 将 贝 叶 斯 体系 引入 序列 分 析 的 过 程 中 萌发 出 来 。 

员 叶 斯 方法 的 主要 缺点 是 它 的 计算 量 特别 大 ， 尤 其 是 需要 计算 高 维 分 布 的 均 
值 时 。 仅 就 本 书 出 现 的 最 长 序列 而 首 ， 使 用 现 有 的 任何 计算 机 都 无 法 得 到 其 完 整 
的 贝 叶 斯 积分 。 但 这 一 问题 会 随 着 蒙特 卡 罗 方 法 (499) 和 其 他 近似 技术 的 不 类 发 
展 ， 以 及 工作 站 和 并 行 计算 机 计算 能 力 的 不 断 提高 而 逐步 获得 解决 。 

一 已 建立 起 通用 的 概率 体系 , 下 一 个 研究 重点 将 转移 到 关于 图 模型 的 讨论 上 ， 
即 利 用 独立 性 假设 将 高 维 概率 分 布 分 解 并 生成 独立 的 子 图 。 大 多 数 机 器 学 习 模 型 
和 问题 能 够 以 共 中 所 包含 的 变量 ( 可 观测 的 或 隐藏 的 ) 和 参数 为 基础 ， 表 示 为 递 
归 的 稀 琉 图 形式 。 稀 玖 递归 图 (sparse recursive graph ) 可 以 很 好 地 描述 或 表现 绝 
大 多 数 模型 和 机 器 学 习 方法 。 
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贝 呈 斯 方法 建 模 的 本 质 是 什么 ?显然 对 于 任何 一 类 模型 ， 首 先 要 明确 地 给 出 
AREER (DIM) 和 先 验 概率 P( M )。 本 章 中 ， 我 们 将 介绍 广义 概率 体系 的 几 个 简 
单 应 用 。 第 一 个 应 用 是 基于 掷 仍 子 的 简单 序列 模型 。 而 本 章 中 的 其 他 应 用 ， 包 括 
统计 力学 的 基本 推导 ， 都 是 这 个 简单 序列 模型 的 变形 推广 ， 通 过 增加 假 子 数量 或 
者 改变 观察 的 数据 得 到 的 。 


最 简单 的 序列 模型 


单个 厂 币 投掷 问题 是 最 简单 的 ， 但 并 非 不 重要 的 一 个 建 模 实例 。 这 个 模型 只 
有 一 个 参数 p 以 及 一 个 由 字符 集 4={H ，T} 中 的 字符 组 成 的 字符 串 数 据 集 ， 其 中 H 
代表 正面 ，T 代 表 反 面 。 由 于 我 们 的 研究 对 象 是 DNA 序 列 ， 因 此 直接 将 模型 扩展 
到 包含 4 个 字符 ， 并 保证 所 观测 到 的 字符 捉 尽 可 能 长 。 


3.1.1 序列 数据 的 单 般 子 模型 


数据 集 D 由 DNA 链 组 成 ， 每 条 链 由 字符 集 4={A，C，G，T} 中 的 字符 组 合 面 
成 。 我 们 想 要 使 用 的 简单 模型 ， 假 设 字符 串 是 通过 独立 投掷 相同 的 四 面体 仍 子 得 
到 的 (图 3-1)。 

内 为 各 次 投 抠 相 互 独立 ， 并 且 使 用 的 册子 相同 ， 从 似 然 度 的 角度 考虑 ， 我 们 
使 用 多 个 字符 串 还 是 一 个 较 长 的 字符 串 没 有 区 别 。 所 以 我 们 假设 数据 是 一 个 长 度 
为 N : D={0} 的 观察 序列 ， 其 中 O=X'…X"，X' e4A。 模 型 W 有 四 个 参数 : ps，pc， 
Pas pT， 它 们 满足 pa+pc+pe+pr=1。 似 然 度 由 下 式 给 出 : 
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图 3-1 用 以 产生 DNA 链 的 四 面 DNA 役 子 的 两 面 


PDM) = |] ast = rit re re pr (3.1) 
Xea 


其 中 ，nx 是 宁 符 Xx 在 序列 O 中 出 现 的 次 数 。 因 此 ， 负 对 数 后 验 概率 为 


-logP(MID)=~ Dnx log px ~logP(M) + logP(D) (3.2) 
Xea 
如 果 我 们 假定 所 有 参数 具有 均匀 的 先 验 分 布 ， 那么 MAP 参 数 估计 问题 就 与 
ML 参数 估计 问题 等 价 ， 可 以 通过 优化 与 负 对 数 似 然 度 相关 的 、 带 有 归 一 化 约束 
的 拉 格 朗 晶 算 子 进行 求解 : 


cBmieen -1- Eo (3.3) 
Xea 


XeA 





在 这 里 以 及 本 书 的 其 他 地 六 ,我们 直接 在 结果 中 检验 是 否 满足 正 约 束 。 令 偏 导 
BOL 9px 等 于 0， 即 可 得 px=mx/4。 应 用 归 一 化 约束 得 到 人 =N， 最 后 得 到 概率 估计 


成 = 至， 对 于 所 有 Xe4 (3.4) 


注意 ， 对 于 最 优 的 参数 集 P*"， 当 N 一 时 ， 字 符 的 平均 负 对 数 似 然 度 应 趋向 于 P* 
HRH CP *) (参见 附录 B ): 





站- 方 互 mx tony = DP log py =H(P*) (3.5) 


dA~THEBR-HR, REMEBER, MEA LEE 
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EMRE ME, ARN KINA ERRATA SHEP, 
我 们 将 看 到 它 是 如 何 与 自由 能 的 概念 有 关 的 。 

当 N 很 大 时 ， 用 观测 频率 估计 px=nx/N 是 很 自然 的 。 大 数 定理 告诉 我 们 N 值 足 
够 大 时 ， 观 测 频 率 将 与 真实 的 px 值 十 分 接近 。 但 是 当 NN 很 小 ( 例如 N=4 ) 时 又 如 何 
WE? 假设 在 一 个 长 度 为 4 的 序列 中 没有 观察 到 字符 A， 我 们 是 否 要 将 概率 ps 设 为 0 
呢 ? 很 可 能 不 是 ， 尤 其 在 我 们 没有 任何 理由 认为 援 子 是 高 度 偏 倚 的 情况 下 。 换 句 
话说 ， 我 们 的 先 验 知识 并 不 认为 于 模型 的 参数 值 为 0。 正 如 在 第 2 章 中 指出 的 ， 这 
种 情况 下 相应 的 自然 先 验 分 布 不 应 是 均匀 分 布 ， 而 是 关于 参数 向 量 P 的 Dirichlet 先 
验 分 布 。 事 实 上 ， 根 据 Dirichlet 先 验 分 布 Duo (P)， 负 对 数 后 验 概率 变 为 




















-logP(wID) =- 了 [mw +0gx —I]log px +logZ+logP(D) (3.6) 


XeA 











2 是 Dirichlet 分 布 的 归 一 化 常量 ， 它 不 依赖 于 概率 px。 因 此 ， 除 了 zx 由 zx+eqx-i 代 
替 外 ，MAP 最 优化 问题 与 前 面 解决 的 问题 十 分 相似 。( 当 其 为 正 时 ) 我 们 立即 可 
以 得 到 估计 























+ Ay +Ogx 一 1 


P= Ngaa ， 对 所 有 Xe 4 (3.7) 


特别 地 ，Dirichlet 先 验 分 布 的 作用 相当 于 在 观测 到 的 次 数 上 增加 一 个 “ 虚 计 数 ” 
(pseudocount ) 项 。 适 当地 选择 平均 化 的 分 布 2 ( 例如 令 Q 为 均匀 分 布 ) MBB, 
可 以 使 估计 px 的 值 总 大 于 0。 当 @ 为 均匀 分 布 时 ，Dirichlet 先 验 分 布 是 对 称 的 。 
注意 ，P 的 均匀 分 布 是 对 称 的 Dirichlet 先 验 分 布 的 一 个 特例 ， 即 gx=1/a=LVI4|。 另 
Sb, H (3.6) 也 可 清楚 地 看 到 ， 后 验 分 布 P( MID ) 是 B=N+@, rx= (nxtagx) / 
(Nta) 的 Dirichlet 分 布 Dpn。 

后 验 分 布 的 期 望 是 向 量 ry， 这 与 MAP 估 计 [ 见 (3.1) ] 有 点 不 同 。 这 意味 着 
可 以 使 用 px 的 另 一 种 估计 ， 如 预测 分 布 或 后 验 分 布 均 值 (mean posterior, MP) 
fait: 





* _ My + Ogx 


Px Nea (3.8) 


FRG TP BERS HY EPR EMPH Bd JB I A ST 
SCP) ECH (P, P*)), 其 中 期 望 值 是 针对 后 验 概率 P( PID ) 的 。 
单一 Dirichlet 先 验 分 布 的 仍 子 模型 十 分 简单 ， 它 使 得 人 们 可 以 用 解析 方法 进 
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行 更 高 层次 的 贝 叶 斯 推断 。 例 如 ,我们 可 以 计算 P (DD ): 


x +0gx -1 Tr(a) 


P(D)= | P(Dw)P(w)aw = bs? * Tea) dpx (3.9) 








这 个 积分 式 与 Dirichlet 分 布 的 积分 很 相似 ， 因 此 很 容易 通过 计算 得 刘 


ro TD.) 

P(D) = pep Bea i (3.10) 

OTT ea) MB 
这 是 先 验 概率 分 布 和 后 验 概 率 分 布 的 归 一 化 常数 的 比值 。 

读者 可 自行 练习 由 叶 斯 方法 的 上 应用。 下面 一 些 练习 非常 在 用 : 寻找 w 和 gx 的 

值 使 得 (3.10) PHPD) 最 大 ， 使 用 超 参数 定义 c 和 dx 的 先 验 概率 ， 以 及 当先 
验 分 布 是 Dirichlet 分 布 的 混合 时 ， 研 究 MAP 估 计 和 MP 估计 ， 其 中 Dirchiet 分 布 形 
式 为 ; 














P(P)= SAD ao (P) (3.11) 


(参见 附录 DD 和 参考 文献 [ 489 ] )。 在 第 二 种 MP 估计 的 情况 下 ， 后 验 分 布 也 是 
Dirichlet 分 布 的 混合 。 一 个 一 般 性 的 结论 是 ， 当 先 验 分 布 是 具 轿 分 布 的 混合 时 ， 
后 验 分 布 也 是 共 因 分 布 的 混合 。 


3.1.2 ”统计 数据 的 单 贫 子 模型 


对 于 同样 的 仍 子 模型 ， 我 们 假设 可 用 的 数据 由 字符 出 现 的 次 数 D={nx} 组 成 ， 
而 不 是 由 实际 的 序列 组 成 。-- 个 简单 的 组 合计 算 说 明 在 这 种 情况 下 似 然 度 具有 以 
下 形式 


P(e) = lee) = PET (3.12) 

其 中 也 xmx=N。 这 与 (3.1 ) 仅 相差 一 个 因子 项 ， 这 个 因子 表示 由 字符 集 实现 的 长 

度 为 N 的 字符 目的 所 有 可 能 排列 方式 的 数目 《nx )。 这 样 一 个 由 简单 的 仍 子 模型 产 

生 的 计数 为 wx 的 分 布 ， 也 称 做 多 项 分 布 ， 是 与 投掷 硬币 (HUE) 相关 的 
二 项 分 布 的 推广 。 虽 然 不 甚 恰当 ， 仍 子 模型 有 时 也 称 做 多 项 模型 。 

如 果 参 数 向 量 P 具 有 Dirichlet 先 验 分 布 DDso ( P )， 相 似 的 计算 表明 Pp 的 后 验 概 

率 分 布 也 是 Dirichiet 分 布 ， 记 为 Dgs(P)， 其 中 B=N+Q，rx= (neroa) /B。 相 应 
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地 ，MAP 估 计 和 MP 估 讨 P' 也 与 (3.7) 和 (3.8) 相同 。 
现在 我 们 考 卡特 定向 量 P 导 出 的 次 数 nx 的 分 布 。 对 (3.12 ) 取 对 数 并 利用 斯 
特 林 ( Stirling ) 阶乘 估计 公式 


n! (2) vam (3.13) 
g 
于 是 我 们 得 到 
log(P(D|P) = C-H (ny 1, px) (3.14) 


FUCA T WHE, HES APS, MPESA, E 
RAHAT AERA, ARRESE. I, Ze 























(ng tN) 


E 
Zz 





P(DP)= (3.15) 





这 称 做 炳 分 布 。 换 言 之 ， 由 均匀 分 布 P 可 以 导出 一 个 关于 次 数 nx 的 、 在 所 有 可 能 
直方 图 构成 的 空间 之 上 的 箭 分 布 ， 正 如 我 们 将 在 3.2 节 中 看 到 的 ， 这 是 最 大 坑 原则 
ERM RL —, AMT RAIA. ERDirichlets} HAM KT PRE 


af- Py log Px) 
z 


之 问 的 由 似 性 和 不 同 。 可 以 证 明 如 果 P 具 有 粮 分 布 ， 那 么 观察 到 mx 后 得 到 的 后 验 
分 布 既 不 是 娘 分 布 ， 也 不 是 Dirichiet 分 布 ， 我 们 将 这 个 证 明 作为 练习 留 给 读者 。 
WS Ti BSS) EREA. RA, UMA AT 
有 py =nx /WN 的 形式 。 

AREA MEF ISR, ELE TE FRAT KAHER AE 
型 。 这 里 所 说 的 1 阶 统计 量 ， 即 : 一 个 给 定 的 序列 集合 (如 外 显 子 、 内 合子 或 蛋 
白质 家 族 ) 中 每 个 字符 出 现 的 比例 。 这 可 以 看 做 是 一 个 迭代 建 模 过 程 的 第 一 步 ， 
因此 后 续 模 型 的 性 能 评价 必然 要 考虑 这 个 1 阶 模型 。 下 一 节 的 复合 山子 模型 和 第 7 
章 中 的 隐 与 式 模型 (HMM ) 是 简单 假 子 模型 的 推广 。 简 单 贷 子 模型 可 以 通过 将 
其 每 一 面 的 字符 变 为 字符 此 序列 而 得 到 一 般 推 广 。 这 与 扩展 字符 集 是 等 价 的 。 例 
如 ， 可 以 使 用 一 个 64 面 山子 构造 DNA 密 码 子 的 模型 。 


3.1.3 FIRE SAR Few 
AMARA FMAM ES ORF BR, OAM KI RL, SE} 


(3.16) 
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3.2 





序列 的 长 度 都 为 N。 例 如 ， 读 者 可 以 考虑 一 个 K 个 序列 的 多 重 序列 比 对 ， 其 中 间 足 
符号 “-” 可 以 看 做 字符 集中 的 一 个 符号 。 在 复合 贷 子 模型 中 我 们 假定 有 NN 个 独立 
的 散 子 ， 每 个 贷 子 对 应 一 个 位 置 ， 每 个 序列 都 是 N 个 散 子 按照 一 定 的 顺序 投 撕 得 
到 的 结果 。 令 PX 表示 第 个 角 子 投 出 字符 X 的 概率 ，w 表示 在 第 ;个 位 置 上 出 现 
字符 X 的 次 数 。 由 于 假定 能 子 和 序列 都 是 独立 的 ， 似 然 度 画 数 为 











N 


r(om)=] [ee (3.17) 


iHi XeA 


如 果 所 有 负 子 均 具有 人 先 验 均匀 分 布 ， 与 单 钥 子 情况 相同 ， 通 过 计算 可 以 得 到 
ot 对 所 有 X eA (3.18) 


我 们 将 Dirichlet 先 验 分 布 对 模型 的 影响 以 及 可 能 的 推广 ( 见 参考 文献 [376 ] ) 
作为 练习 留 给 读者 。n-gram 模 型 是 语言 建 模型 中 常用 的 一 类 著名 模型 。 在 n-gram 
模型 中 有 人 4 六 :个 企 子 ， 每 个 从 子 都 与 长 度 为 "1 的 不 同 前 级 相关 联 ， 每 个 仙子 都 
是 有 II 个 面 的 简单 假 子 ， 每 个 面 对 应 1 个 字符 。 序 列 由 一 个 长 度 为 m 的 窗口 扫描 产 
生 ， 选 择 与 当前 前 级 相关 的 侦 子 随机 投掷 而 得 。 因 此 对 下 一 个 骨 子 的 选择 依赖 于 
先前 投掷 的 结果 。 这 种 n-gram 模 型 可 以 看 做 阶 数 等 于 前 绥 长 度 的 马尔 可 夫 模 型 ， 
其 中 前 绷 也 称 做 模型 的 “ 记 亿 ”。 单 山子 模型 的 记 亿 长 度 为 0。 此 外 ， 还 有 可 变 记 
忆 长 度 的 变 体 模型 (一 个 生物 序列 的 应 用 例子 见 参考 文献 [448 ] ) 以 及 高 阶 混 
合 马尔 可 夫 模 型 ， 后 者 亦 即 播 值 马尔 可 夫 模 型 。 随 着 字符 集 的 规模 和 记忆 长 度 的 
增 大 ， 可 能 的 前 组 数目 急剧 增长 ， 因 此 高 阶 马尔 可 夫 模型 对 计算 能 力 要 求 很 高 。 
然而 由 于 DNA 的 字符 集 很 小 ， 所 以 仅 使 用 阶 数 为 5 左右 的 马尔 可 夫 模 型 仍 是 可 行 
的 。 



























































统计 力学 











至 少 由 于 以 下 五 个 方面 的 原因 ， 我 们 需要 理解 初步 的 统计 力学 及 其 与 机 器 学 
习 和 计算 生物 学 的 联系 。 第 一 ， 尽 管 在 我 们 看 来 ， 由 于 混淆 了 最 大 炳 原理 和 贝 叶 
斯 推断 ， 统 计 力 学 的 常见 表述 有 一 些 缺 陷 ， 但 统计 力学 仍 可 被 看 做 贝 叶 斯 推断 的 
最 初 也 是 最 好 的 例子 之 一 ; [28028 1 第 二 ， 传 统 的 统计 力学 考虑 的 是 ， 如 何 从 大 量 
简单 的 微观 相互 作用 单元 中 得 到 诸如 平衡 、 相 变 等 宏观 统计 性 质 ;第 三 ， 统 计 力 
学 的 技术 和 结果 对 于 理解 机 器 学 习 中 所 使 用 的 一 系列 图 模型 的 性 质 和 进化 过 程 十 
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分 有 用 ; [2248250] 第 四 ， 统 计 力学 模型 也 已 直接 应 用 到 生物 大 分 子 上 一 -例如 蛋 
白质 折 秋 问题 ( 见 参 考 文献 [151 ] 。 第 五 ， 统 计 力学 有 利于 理解 机 器 学 习 的 一 
些 基 本 算法 ， 例 如 第 4 章 中 描述 的 模拟 退火 算法 和 EM 算法 。 
下 面 我 们 从 最 基本 的 贝 叶 斯 统计 估计 开始 推导 统计 力学 的 基本 概念 ， 特 别 是 
关于 波 耳 兹 曼 - 吉 布 斯 分 布 和 自由 能 的 概念 ， 这 些 将 在 下 一 章 中 用 到 。 在 基本 的 
统计 力学 体系 里 ， 可 以 考虑 一 种 包含 大 量 微 观 状态 S={5,,…, si} 的 随机 系统 ， 其 
中 p, 表 示 对 于 给 定 分 布 P= (ps)， 系 统 处 于 状态 :的 概率 。 这 可 以 被 视 为 一 个 具有 
参数 w=p, 的 贷 子 模型 M(w )， 尽 管 不 必 假定 角 子 都 是 独立 的 。 上 述 例子 的 主要 区 
别 就 在 于 数据 。 仍 子 的 各 个 面 ， 即 微观 状态 并 不 能 由 观测 得 到 ， 只 能 作为 隐 变 量 
处 理 。 因 此 ， 我 们 假定 存在 一 个 关于 状态 的 函数 f(s )， 惧 一 的 宏观 观测 量 〔 数 
H) 就 是 /的 均值 或 期 望 。 在 本 节 中 我 们 将 使 用 一 些 不 很 规范 的 符号 用 法 ， 例 如 
记 D=E(F) =L,p,f Cs )o 

统计 力学 中 的 状态 经 常 有 微观 的 结构 s= (x,…,x, ), 其 中 是 局 部 变量 。 例如， 
克 可 以 是 二 值 变量 ， 在 这 种 情况 下 |SIl=2"。 同 样 ，f 是 系统 的 能 量 ， 可 以 记 为 局 部 
变量 的 二 次 函数 : f Cs) =f Cys, ) =Z wt Li wao 交叉 参数 (interaction 
parameter ) wy 可 以 是 局 部 的 〈 如 点 阵 的 旋转 )， 也 可 以 是 全 局 的 ， 并 且 与 内 在 的 
模型 相关 。 尽 管 这 一 假设 在 特殊 系统 建 模 以 及 发 展 详细 的 理论 时 十 分 重要 ， 但 
在 后 生 的 章节 中 并 不 需要 用 到 它们 。 我 们 要 癌 的 第 一 个 问题 是 : 给 定 /的 观测 均值 ， 
关于 状态 分 布 P， 我 们 可 以 得 到 什么 结果 ? 
3.2.1 波 耳 兹 没 - 吉 布 斯 分 布 

标准 推导 

PT AAR AREAL AB EP, RE, R 
们 应 选择 满足 约束 ,f(s ) p=DIEAG RAP, AAKER “Am” H 


上 且 需 要 最 少 附加 假设 的 解 。 这 个 问题 可 以 很 容易 利用 拉 格 朗 日 算 子 上 解决 ， 其 中 上 
是 由 需要 优化 的 函数 带 有 相关 约束 条 件 ) 的 线性 组 合 ; 


cE Ser-0)] -do (3.19) 


SL 对 p, 候 导数 为 0， 我 们 即 可 发 现 分 布 的 惟一 解 具 有 如 下 形式 : 
eu) 
z(a) 















































p,(A)= (3.20) 
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其 中 归 一 化 因子 Z(4) =e 称 做 分 割 阔 数 。 在 统计 力学 中 ， 由 定义 本 HkT 
可 知 ,， 拉 格 朗 日 算 子 与 温度 T 有 关 ， 其 中 是 波 耳 兹 曼 常 数 。 对 于 目前 所 有 的 问题 ， 
我 们 不 需 考虑 温度 ， 而 是 直接 考虑 参数 4。 注 意 ， 从 式 子 








EGO- D (3.21) 
可 知 4 以 及 相应 的 7， 完 全 由 观察 值 D 决 定 ， 通 常 有 必要 假定 4=1。 最 优 分 布 P 称 
做 系统 的 波 耳 效 曼 - 吉 布 斯 分 布 。 需 要 注意 的 是 ， 至 少 对 子 给 定 的 温度 ， 使 用 与 
-logP 成 比例 的 能 量 函 数 ， 任 何 分 布 P 都 可 以 表示 为 波 耳 兹 曼 - 吉 布 斯 分 布 。 当 参 
数 p, 具 有 多 重 线性 约束 时 ， 也 很 容易 得 到 一 个 相似 的 公式 。 
尽管 波 耳 兹 最 - 吉 布 斯 分 布 非常 有 用 ， 但 从 中 时 斯 理论 的 观点 来 看 ， 有 三 个 
原因 使 得 标准 推导 过 程 不 能 令 人 完全 满意 : (1) 先 验 分 布 不 明确 。 因 此 ， 如 何 将 
有 关 p, 的 附加 先 验 信息 〈 如 已 知 第 一 个 状态 要 比 其 他 状态 出 现 得 更 频繁 ) 结合 
来 ? (2 ) 概率 模型 不 明确 ， 特 别 是 如 何 计算 似 然 度 P( Dp, )。( 3 ) RAREN 
依据 不 足 。 尤 其 是 最 大 峭 与 ML 或 MAP 估 计 之 间 存 在 任何 联系 吗 ? 实际 上 上， 最 大 
炳 的 使 用 与 前 面 扩 讨论 的 组 合 变 医 部 分 相关 ， 即 ， 当 角 子 相互 独立 时 ， 绩 的 最 大 
化 本 质 上 等 价 于 可 能 实现 的 次 数 NI T n RKE. |?) 因此 ， 最 大 精 的 解 就 是 
那个 能 以 最 多 种 方法 实现 的 解 。 这 -~ 论据 只 基于 实现 的 次 数 ， 而 没有 考虑 相关 的 
概率 。 下 面 将 针对 这 三 个 方面 可 能 出 现 的 问题 进行 讨论 。 


贝 叶 斯 方法 的 推导 

标准 推导 的 主要 问题 是 它 的 概率 模型 不 明确 。 特 别 是 ， 似 然 靖 数 P( Dlp, ) 没 
有 明确 的 定义 ， 而 且 如 果 不 考虑 系统 的 实际 运行 ， 在 这 一 点 上 几乎 得 不 到 什么 进 
展 。 因 此 我 们 必须 增强 初始 设置 ， 即 假定 存在 一 个 给 定 的 足够 大 的 数字 N， 并 假 
定 已 经 对 系统 经 过 了 一 段 时 间 的 观察 。 我 们 还 需 考 虑 不 同 观察 次 数 的 影响 ， 但 这 
会 使 分 析 变 得 更 复杂 。 因 此 ， 我 们 需要 用 观测 次 数 n, 来 参数 化 模型 。 注 意 实 际 观 
察 到 的 是 D= (Enf (5)) IND, pf (so 

次 数 n, 可 能 有 一 些 不 同 的 先 验 分 布 。 正 如 我 们 已 经 看 到 的 那样 ， 一 个 自然 的 
先 验 分 布 是 使 用 ayN 的 Dirichlet 先 验 分 布 。 非 对 称 的 Dirichlet 先 验 分 布 可 以 很 容易 
地 结合 与 任何 特殊 状态 出 现 频率 有 关 的 附加 信息 。 我 们 将 由 Dirichlet 先 验 概率 得 
到 后 验 概率 的 计算 作为 练习 留 给 读者 ， 显 然 这 不 吓 波 耳 兹 曼 - 才 布 斯 解 。 例 如 ， 如 
果 先 验 分 布 是 均匀 的 ， 并 有 f(s, ) =D, BAHE CN, 0,…, 0 ) 具有 最 小 的 可 能 的 
炉 ， 它 可 以 确保 数据 的 概率 达到 最 大 ! 这 里 我 们 使 用 箭 分 布 作为 先 验 分 布 ， 这 是 
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P 为 均 名 分布 时 得 到 的 n, 的 分 布 。 另 外 ， 当 所 有 过 程 狼 立 时 ， 这 样 的 先 验 概率 可 以 
最 好 地 确定 ， 即 这 时 的 基本 概率 模型 是 简单 的 具有 |5I 面 的 角子 模型 。 尽 管 在 接 下 
来 的 讨论 中 我 们 只 限于 0 阶 的 马尔 可 夫 模 型 ， 读 者 可 以 自己 考虑 更 高 阶 的 马尔 可 夫 
模型 。 例 如 ，1 阶 的 马尔 可 大 模型 将 包括 与 状态 之 间 的 转移 概率 相关 的 一 组 不 同 的 
BR X SERTEL. BAAREN ERYR RENAR A-A 
斯 分 布 的 一 些 问题 。 

由 此 似 然 电 数 变 得 平凡 ， 它 的 值 为 1 或 0， 这 依赖 于 D= Lf s) n NEGRE 
我 们 可 以 将 贝 叶 斯 推断 的 第 一步 继续 进行 下 去 ， 由 MAP 估 计 估 算出 参数 mm。 使 用 
前 面 介绍 的 公式 ， 即 可 得 到 拉 格 朗 日 算 子 


2 WS- 中 (£n n) (322) 


FOE PE A XL Gk ( 3.19 ) 是 一 样 的 ， 由 此 可 以 得 到 nyN 
的 MAP 波 耳 兹 曼 - 吉 布 斯 分 布 。 用 参数 p, 代 替 n, 可 以 得 到 相似 的 结论 ， 但 是 由 于 不 
Fhin BESTS DHE SARL ARB Fe 8 E I FC AB EI FE TS AR AA 


























总 之 ， 波 耳 兹 曼 - 吉 布 斯 分 布 对 应 于 应 用 MAP 佑 计 的 贝 叶 斯 推断 的 第 一 步 ， 
其 中 的 先 验 分 布 为 精 分 布 。 因 此 ， 最 好 不 训 将 最 大 糖 看 做 普遍 原则 ， 而 应 该 仅仅 
看 做 在 多 项 分 布 情况 下 实现 1 阶 贝 叶 斯 推断 的 捷径 ， 这 个 多 项 分 布 与 炉 先 验 相关 。 
这 一 先 验 分 布 还 有 疑点 : 我 们 可 以 构造 一 些 例子 ， 其 中 最 大 傍 原则 会 导出 “错误 ” 
的 解 。 我 们 将 这 种 例子 的 构造 以 及 更 高 阶 贝 叶 斯 推断 的 实现 计算 超 参 数 、 综 合 
先 验 概率 ) 作为 练习 留 给 读者 。 


3.2.2 ”热力 学 极限 和 相 变 


温度 是 强度 量 (intensive quantity ) 的 一 个 好 例子 ， 即 该 参数 的 定义 与 系统 
MAK, WARES HERE (extensive quantity )， 例 如 能 量 ， 它 会 随 着 
系统 规模 的 增 大 而 增 大 。 对 于 具有 局 部 相互 作用 的 大 系统 而 言 ， 这 种 增 大 与 系统 
规模 的 增 大 呈 线 性 相关 。 因 此 ， 当 系统 的 规模 趋 于 无 穷 大 时 ， 每 一 单位 容量 的 广 
延 量 的 值 趋 于 一 个 有 限 值 ， 称 为 热力 学 极限 〈thermodynamic limit )。 

统计 力学 的 一 个 主要 目标 就 是 估计 宏观 量 的 热力 学 极限 ， 即 根据 波 耳 兹 曼 - 
吉 布 斯 分 布 仿 计 其 期 望 值 。 特 别 地 ， 一 个 主要 的 目标 是 得 到 分 割 函数 Z CA) 的 近 
似 ， 四 为 这 个 前 数 包 括 了 系统 的 大 部 分 相关 信息 。 尤 其 是 我 们 很 容易 证 明 函 数 f 
的 任何 矩 量 都 可 以 由 Z (4) 计算 得 到 ， 更 准确 地 说 ， 可 以 由 Z CA) 的 对 数 得 到 。 
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例如 ， 对 于 头 两 个 矩 量 ， 即 均值 和 方差 ， 可 通过 初等 计算 得 出 : 


Hf) =-F og Z() (3.23) 
g 
Var(f)= -zz log Z(4) (3.24) 


Ki, RAB HAMA HP RRR RRA 
H (P')= -P (s)logP*(s)= log Z(A)+AE() (3.25) 


统计 力学 的 另 一 个 中 心 问题 是 相 变 (phase transition) 的 研究 ， 即 研究 当 系 
统 的 某 些 参数 一 特别 是 温度 7 或 等 价 的 /一 发 生变 化 时 , 系统 行为 发 生 的 突变 。 
如 果 了 (7) TEA ALA EE, MURR AAS ee EMA Ah, WRES) 在 jc 处 连 
续 而 Var (了 ) AEB, MPAA TOGA. TRAE EE Be tt 
重要 , (1 但 这 已 不 是 本 书 的 研究 范围 。 


3.2.3 ”自由 能 


由 于 分 割 函数 的 对 数 有 重要 作用 【参见 《3.23) (3.24) 和 (3.25) ] ， 它 
也 被 称 做 自由 能 。 更 精确 地 ， 自 由 能 二 下 (天 和) =F) 定义 为 




















F (a) =~ 108 2(4) (3.26) 


上 述 的 式 子 显然 可 以 改写 为 自由 能 的 形式 ,例如 
H (P")=-AF (A) + AE(f) (3.27) 
这 个 式 子 等 价 于 


F (a)=H(/)-54(P') (3.28) 


上 式 有 时 也 被 看 做 自由 能 的 另 一 种 定义 。 在 这 个 定义 中 ， 自 由 能 依赖 于 函数 人 S 
数 4 和 状态 的 分 布 户 。 因 此 该 定义 可 以 扩展 到 其 他 任意 分 布 C(s ) : 


F (F.0.4)=F (0.4)=89(/)-4M(0) (3.29) 
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其 中 Eg 表示 分 布 @ 的 期 望 值 。 这 里 我 们 没有 考虑 f 的 依赖 性 ， 实 际 上 作为 负 对 数 
概率 的 f 的 选择 在 统计 应 用 中 十 分 重要 ,例如 下 面 和 第 4 章 中 将 要 提 到 的 EM 算法 
的 推导 。 将 自由 能 与 上 述 的 拉 格 朗 日 算 子 比 较 ， 波 耳 兹 曼 - 吉 布 斯 分 布 明显 等 价 
于 使 得 自由 能 达到 最 小 的 分 布 。 

现在 考虑 任意 两 个 分 布 0(s ) 和 R(s )， 比 较 它们 的 自由 能 。 一 个 简单 的 比较 
计算 : 








¥ (0,4)-F(R.A)=[Ols)~ RO)] 119)+ Foe R)]+ HoR (3.30) 


其 中 H( 0,R) =L,Q(s) log( OCs) RCs )) BOMR I KAX o 

注意 一 点 ， 如 果 我 们 取 s 的 能 量 为 负 对 数 似 然 度 f( s ) =-logR(s )， 其 中 R 是 
某 种 状态 的 分 布 ， 那 么 波 耳 兹 曼 - 吉 布 斯 分 布 与 R*(s) 成 比例 。 特 别 地 ， 当 本 1 
时 ， 系 统 的 波 耳 兹 曼 - 吉 布 斯 分 布 就 是 R 本 身 : PCs, 1) =R， 而 且 其 自由 能 减少 
为 0。 进 一 步 地 ， 对 于 任意 的 其 他 分 布 C@， 自 由 能 之 间 的 差别 等 同 于 相对 箭 


F (Q, 1)-F (R, 1) =H(Q, R) (3.31) 


Ha FADER EERI, ALCO, 1 ) >FCR, 1 )， 当 且 仅 当 Q=R 时 等 导 成 立 。 
另外 , 波 耳 兹 名 - 吉 布 斯 分 布 可 使 自由 能 达到 最 小 。 还 有 一 个 需要 注意 的 重要 之 
处 是 ， 呈 1 的 情况 并 没有 什么 特别 之 处 。 例 如 我 们 可 以 定义 f(s) =-logR(s) /4， 
从 而 得 到 FF( Q, A) -F(R,4) =H(Q, R) /A 


3.2.4” 隐 变量 情况 


在 许多 建 模 情况 中 都 存在 隐 / 不 可 观测 / 潜 变 重 或 因素 ， 记 为 H。 如 果 D 表 示 数 
据 ， 我 们 假定 隐 变 量 和 观测 变革 之 间 存 在 联合 分 布 P( D, Hlw )，w 是 参数 。 在 我 
们 感 兴趣 的 情况 中 ，w 通 常 表示 模型 的 参数 。 从 统计 力学 的 观点 来 看 ， 可 以 认为 
系统 的 状态 是 通过 隐 变 量 决定 的 。 如 果 定 义 为 









































f(H) = ~logP(D, HIw) (3.32) 
ABA, TEAS LANE A S-i A a A 
P* = P'(H,1)=P(HID, w) (3.33) 


给 出 ， 自 自 能 由 


F (P*,1)=—logP(Djw) (3.34) 
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给 出 ， 它 是 数据 的 负 对 数 似 然 度 。 进 一 步 邮 ， 对 于 任何 其 他 分 布 Q0， 自 由 能 之 间 
的 差别 四 





F (Q,1)-F(P".1)=H9, P") (3.35) 


logP(Djw) = -F (Q, 1) +H(9, P) (3.36) 


给 出 。 在 后 验 概率 P( HID, w) 及 其 相应 的 期 望 值 很 难 计算 时 ， 为 了 使 数据 的 似 然 
度 达 最 大 ， 有 时 可 以 使 用 一 些 计算 比较 容易 的 次 优 策略 ， 这 些 策略 基于 其 他 类 型 
的 分 布 O， 它 们 离 臭 实 的 后 验 概率 不 会 太 远 。 关 于 最 小 化 自由 能 F( Q, A) 的 讨论 
见 参考 文献 [ 146, 255 ] 以 及 附录 A 中 有 关 变 分 法 的 章节 。 
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4.1 绪 论 


在 这 一 章 里 ， 我 们 将 介绍 在 机 器 学 习 方法 应用 中 涉及 到 的 主要 算法 ， 这 些 算 
法 将 在 本 书 的 其 余部 分 应 用 。 我 们 将 简要 播 述 每 一 种 算法 ， 并 为 读者 提供 相关 主 
题 的 大 量 参考 文献 。 

我 们 已 经 看 到 ， 在 根据 一 些 数据 构造 出 一 个 参数 化 的 模型 M(w ) 之 后 ， 接 下 
来 的 任务 是 : 

1. 估计 联合 分 布 P(w, D) 和 后 验 概率 P wD ) ; 

2. 估计 参数 w 的 最 优 解 集 ， 使 得 P( wlD ) 最 大 ， 这 是 贝 叶 斯 推断 的 第 一 层次 ; 

3. 根据 后 验 分 布 估计 其 边缘 分 布 和 期 望 值 ， 例 如 计算 形 如 E(f) = Sr (w) 

P( wiD ) dw 的 积分 ， 这 是 更 高 层次 的 贝 叶 斯 推断 。 

因此 ， 根 据 算 法 的 目的 是 要 估计 概率 密度 、 某 个 参数 值 ， 还 是 估计 某 个 期 望 
值 ， 可 将 算法 分 为 三 类 。 虽 然 这 种 分 类 带 有 某 种 任意 性 ， 但 实际 需要 仍 要 求 我 们 
采用 这 种 分 类 。 实 际 上 ， 任 何 一 个 问题 都 可 以 变换 为 一 个 优化 问题 的 形式 ， 而 某 
一 事件 发 生 的 概率 则 是 相应 的 指示 函数 (indicator function ) 的 数学 期 望 : P(4 ) = 
EC) 与 此 类 似 ， 经 常用 于 估计 序列 数据 似 然 度 的 动态 规划 也 可 视 为 一 种 优化 
技术 。 

在 4.2 节 中 ， 我 们 将 简要 回顾 动态 规划 算法 一 一 一 种 应 用 于 序列 分 析 的 关键 算 
法 ， 以 及 它 在 序列 似 然 度 估计 中 的 应 用 。 在 接 下 来 的 两 节 里 ， 我 们 将 考虑 一 些 优 
化 P( wlD ) 的 算法 ， 包 括 梯度 下 降 法 和 EM ( 期望 最 大 化 ) /GEM ( 广义 期 望 最 大 
化 ) 法 。 第 4.5 节 讨论 蒙特 卡 罗 一 马尔 可 夫 链 ( Monte Carlo Markov chain method, 
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4.2 


4.3 


MCMC ) 方法 在 高 维 分 布 的 随机 采样 及 相关 期 望 值 计算 中 的 应 用 。 而 模拟 退火 算 
法 (simulated annealing) 将 推迟 至 4.6 节 讨论 。 这 是 因为 模拟 退火 算法 在 很 大 程 
度 上 依赖 于 随机 采样 。 在 4.7 节 中 ， 我 们 将 简要 介绍 进化 算法 。 在 4.8 节 里 ， 我 们 
结合 应 用 方面 的 问题 进行 一 些 总 结 和 补充 。 


动态 规划 


若 一 个 问题 可 以 递归 分 解 为 两 个 规模 较 小 的 相似 子 问题 ， 那 么 原始 问题 的 解 
就 可 以 通过 这 两 个 于 问题 的 解 合成 而 得 。 动 态 规划 !%] 正 是 解决 这 类 问题 的 一 种 
普 适 的 优化 技术 。 动 态 规划 应 用 的 原型 是 在 一 个 图 中 寻求 两 节点 的 最 短路 径 。 显 
然 ， 图 中 从 节点 4 通过 节点 C 到 达 节 点 8 的 最 短路 径 就 是 由 4 到 C 的 最 短路 径 加 上 由 
C 到 8 的 最 短路 径 ， 这 称 为 “贝尔 曼 原 则 ”( Bellman principle )。 对 这 类 问题 的 一 
般 解法 是 通过 递归 地 组 合 更 短 的 最 优 路 径 进行 构建 。 

动态 规划 各 它 的 许多 变 体 非常 普遍 地 应 用 于 序列 分 析 中 。Needleman-Wunch 
和 Smith-Waterman 算 法 , [4892] 以 及 其 他 序列 比 对 算法 ( 如 电气 工程 师 经 常 
使 用 的 Viterbi 解 码 算法 ) 都 是 动态 规划 的 应 用 。 序 列 比 对 算法 可 以 被 形象 地 视 为 
在 一 个 具有 适当 度量 的 图 中 寻找 最 短路 径 。 对 两 个 长 度 为 w 的 序列 进行 比 对 意味 
着 在 一 个 有 个 节点 的 图 上 找到 一 条 最 短路 径 。 由 于 动态 规划 本 质 上 要 求 对 所 有 
的 节点 超 历 一 次 ， 所 以 它 的 时 间 复 杂 度 是 O(N? )。 

在 第 7 章 和 第 8 章 中 ， 我 们 在 训练 和 利用 模型 时 将 大 量 应 用 动态 规划 和 Viterbi 
算法 ， 以 便 计算 似 然 度 和 利用 HMM 进 行 序列 比 对 。 关 此 ， 我 们 将 在 这 里 给 出 相 
应 算法 的 详细 起 源 ， 并 对 其 他 章节 中 所 用 到 的 动态 规划 的 其 他 一 些 变形 算法 做 简 
要 概述 或 将 它们 留 做 习题 。 由 子 动态 规划 非常 著名 ， 是 许多 传统 序列 分 析 算法 的 
基础 ， 所 以 我 们 推荐 读者 阅读 有 关 的 大 量 文献 ( 尤其 是 参考 文献 [ 550 ] 和 其 中 
提 及 的 参考 文献 )。 再 励 学习 算 法 (reinforcement-leaming algorithm ) 也 是 一 类 
重要 的 学 习 算 法 ， 它 可 以 被 视 为 动态 规划 思想 的 一 种 一 般 化 推广 。!2981 









































至 








梯度 下 降 法 


我 们 经 常 关 心 的 参数 估计 问题 是 寻求 最 优 模型 M( w )， 使 得 负 对 数 后 验 概率 
F Cw) =-logP( wlD ) 或 负 对 数 似 然 度 -logP( Dlw ) 最 小 。 如 果 函 数 J(w ) 可 微 ， 
就 可 以 运用 一 种 最 古老 的 优化 算法 一 一 梯度 下 降 法 一 来 寻找 其 极 小 值 。 正 如 
它 的 名 字 所 表示 的 ， 梯 度 下 降 法 是 一 个 迭代 的 过 程 。 它 可 以 表示 成 以 下 的 向 量 




















4.4 
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形式 : 

t+ t 

ww -n (4.1) 
这 里 ，9 表 示 步 长 大 小 ， 或 者 叫做 学 习 率 〈1leaming rate )， 它 可 以 是 固定 值 ， 也 可 
以 在 学 习 过 程 中 加 以 调整 。 

由 于 常规 的 梯度 下 降 法 比较 简单 ， 在 复杂 参数 模型 中 ， 根 据 梯度 的 实际 计算 

方法 不 同 ， 可 以 给 出 这 一 方法 的 不 同 实现 方法 。!25] 在 图 模型 中 ， 通 常 要 求 信息 
的 反 向 传播 。 正 如 我 们 将 要 在 下 一 章 中 看 到 的 ， 这 是 梯度 下 降 法 应 用 于 神经 网 络 
( 反 向 传播 算法 ) 和 隐 马 氏 模型 (前面 一 后 向 过 程 ) 的 情形 。 很 显然 ， 梯 度 下 降 
过 程 的 结果 依赖 于 初 值 估 计 。 此 外 ， 如 果 需 要 优化 的 函数 具有 复杂 的 形式 ， 那 么 
一 般 情 况 下 ， 梯 度 下 降 法 会 终止 于 局 部 极 小 值 面 不 是 全 局 最 小 值 。 因 此 如 果 可 能 ， 
在 应 用 时 最 好 选取 不 同 的 起 始点 和 学 习 率 多 次 执行 优化 程序 。 
我 们 都 知道 ， 在 某 些 情况 下 ， 简 单 的 梯度 下 降 往往 是 缓慢 和 低 效 的 。 为 了 克 
服 这 个 问题 ， 梯 度 下 降 法 的 许多 变形 应 运 而 生 。 例 如 共 轰 梯度 下 降 法 ， 它 运用 2 
阶 信息 ， 或 者 由 当前 梯度 和 以 前 下 降 方向 一 起 构成 更 复杂 的 下 降 方向 。 关 于 梯度 
下 降 法 的 更 多 细节 和 参考 文献 可 以 从 参考 文献 【434 ] 中 找到 。 尽 管 梯度 下 降 法 
较 粗糙， 但 仍 因 其 易 操作 性 和 实用 性 而 被 广泛 采用 。 


4.3.1 ”随机 方向 下 降 法 


有 很 多 下 降 过 程 可 以 不 必 沿 着 梯度 最 大 的 路 线 进行 。 在 梯度 难于 计算 ， 计 算 
所 依赖 的 硬件 的 物理 特性 的 直接 支持 以 及 逃离 局 部 极 小 非常 重要 等 情况 下 ， 随 机 
方向 下 降 法 十 分 有 用 。 例 如 ， 我 们 可 以 考虑 在 现 有 的 估计 上 加 一 个 随机 扰动 ， 并 
且 只 有 当 它 低 于 现 有 水 平时 才 接 受 它 。 否 则 采用 相反 的 扰动 ， 或 者 尝试 一 个 新 的 
扰动 。 在 线性 搜索 算法 中 ， 下 降 的 方向 一 旦 决定 ， 则 沿 着 该 方向 找到 最 低 点 并 接 
着 产生 另 一 个 新 方向 。 与 线性 搜索 相关 的 思想 以 及 随机 方向 下 降 法 在 下 一 节 的 
EM 算法 和 本 章 最 后 的 进化 算法 中 还 会 提 到 。 













































































EM/GEM 算 法 


另 一 类 重要 的 优化 算法 是 期 望 最 大 化 (EM ) 和 广义 期 望 最 大 化 (GEM) 算 
Ho N 1 这些 算法 有 许多 不 用 的 应 用 ， 它 们 也 应 用 于 序列 分 析 中 。LUs2251 在 
HMM 中 ，EM 算 法 也 被 称 为 Baum-Welch 算 法 。[54] 由 于 EM/GEM 算 法 的 用 途 不 只 
限于 HMM， 我 们 将 根据 参考 文献 【400 ] 的 思路 ， 利 用 第 3 章 中 提 到 的 自由 能 的 
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图 4-1 EM 算法 的 三 个 相继 点 


从 w 出 发 为 了 使 似 然 度 曲面 F(w) =-logP( Dw) 达到 最 小 ，EM 算 法 在 约束 条 件 G(w') =F(w') =A 
下 最 小 化 曲线 G( w)。 则 面 G 决 定 了 曲面 r， 而 且 这 两 个 曲面 具有 相同 的 梯度 w=w'。w 处 对 应 G 的 最 小 值 点 
8， 点 C 是 通过 计算 隐 变 其 的 新 的 后 验 概率 P( HD, w” ) 得 到 的 。 


概念 ， 给 出 EM/GEM 算 法 的 一 般 处 理 方法 。 

在 共有 隐 变 量 的 模型 和 问题 中 ，EM 算 法 非常 有 用 。 典 型 的 隐 变 量 包括 缺失 
或 光 法 观测 到 的 数据 ， 混 合 模型 中 的 混合 参数 和 图 模型 中 隐 含 的 节点 状态 ( 如 神 
经 网 络 中 的 隐 节 点 ， 隐 马 氏 模型 中 的 隐 状 态 )。 如 果 用 DD 表示 数据 ,我 们 假设 有 一 
个 建立 在 隐 变 量 和 可 观测 变量 基础 上 的 参数 化 联合 分 布 函 数 P(D, Hlw )， 其 中 w 
表示 模型 的 参数 。 以 上 处 理 方法 的 目标 是 最 大 化 似 然 度 logP ( Dlw )。 这 一 思想 同 
样 可 以 应 用 于 MAP 佑 计 中 。 由 于 直接 优化 logP( Phw ) 一 般 比较 困难 ， 我 们 的 基 
本 思想 是 试图 优化 它 的 期 望 值 E( logP ( Dlw )): 

















E(logP( Diw )) =E(logP( D, Hlw ) -logP ( HID, w )) (4.2) 


EM 算法 是 一 个 迭代 算法 ， 它 交替 执行 两 个 步骤 :步骤 E HE) ) 和 步 又 
MI( 最 大 化 )。 在 步骤 E 中 ， 通 过 给 出 的 观测 数据 和 w 的 现 有 估计 值 ， 计 算出 耻 变 
量 的 分 布 。 在 步骤 M 中 ， 般 过 步 又 E 给 出 的 隐 变 量 的 假定 分 布 ， 计 算出 参数 的 最 
优 可 能 值 。 设 w 在 O 时 刻 的 初始 估计 值 为 w”， 在 ! 时 刻 的 EM 算法 可 以 更 精确 她 写 为 
如 下 形式 : 

1, 步骤 BE: 计算 的 分 布 Q" CH) 使 得 2 CH) =PCHID, ww  ) ; 

2. 步骤 M: 设置 w=arg,maxEo, [ logP(D, Hlw) ] 。 
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正如 在 第 3 章 中 所 看 到 的 ,如 果 我 们 定义 一 个 隐 含 构 型 (hidden configuration ) 
Ai AE Bt BONS CH) =-logP(D, Hlw )， 则 在 4=1 时 波 耳 兹 曼 - 吉 布 斯 分 布 由 
P( HID, w) 给 出 。 换 句 话说 ，EM 算 法 的 第 一 步 就 是 使 自由 能 关于 Q 最 小 : 


F(f, Q,1) =F(w, 0,1) =F(w, Q) =Eo(f) -H(Q) (4.3) 


第 二 步 就 是 使 其 关于 了 了 即 w 最 小 。 这 时 ， 忽 略 常数 1=1，EM 算 法 可 以 改写 成 如 下 
形式 : 

1. PRE: WHEREAS- MND CH) EEF Cw! 8 ) 最 小 ; 

2. PRM: 设置 w 使 得 F (wm', 0* ) 最 小 。 

这 里 应 该 特别 注意 到 ,虽然 @* 依 赖 于 w， 但 在 步 又 M 中 @* 应 保持 不 变 。 同 样 
从 第 3 章 中 还 可 以 看 出 ， 波 耳 兹 曼 - 吉 布 斯 分 布 的 自由 能 与 数据 的 负 对 数 似 然 度 相 
同 ， 即 FCw, Q", 1) =-iogP( Dhv )。 

总 而 言 之 ，EM 算 法 就 是 一 种 通过 在 Q 和 w 方 向 上 进行 交 蔡 优化 ， 最 终 使 得 自 
由 能 Ff 达 到 优化 的 过 程 。 这 样 就 产生 了 如 下 形式 的 佑 计 过 程 : 


Ge 2!) > Gv, OM) Cw", MM) — Cy", Of) … (4.4) 


对 于 每 一 个 !， 它 满足 

1. FT(w, O) SFW, Of) SFC, OM) SEW", OM) Be 

2. F(w', Q* ) =-logP ( DIw’) 

3. Q7'=P( HID, w) 和 Fo O') -FCw QO) =H( 0', gi!) 

通过 上 面 的 涪 明 可 以 清楚 地 看 到 : 除了 一 些 极 个 别 的 鞍点 ，EM 算 法 如 我 们 
所 希望 的 那样 最 终 收敛 于 F( w, 8 ) 的 局 部 极 小 值 点 ， 这 个 值 也 是 -logP( DIM) 的 
局 部 极 小 值 点 。 

单独 从 w 的 角度 来 看 EM 算法 非常 有 启发 性 。 假 设 在 时 刻 : 我 们 有 一 个 估计 值 
w'， 与 其 对 应 的 似 然 度 为 -logP( Diw) W 














w! sarg, min|-E, ‘om logP(H, Diw)] (4.5) 





SURO =P (HID, w). 将 P(H, Diw) =P( HID, w) PC Diw) WAHEHE, LRS 
价 于 





w'‘sarg, min [ -logP(Dlw) +H( Q*', PCAID, w))] (4.6) 
这 样 ， 从 w 出 发 ， 通 过 EM 算法 可 以 找到 曲面 G(w ) =-logP(Dlw ) +H (g, 
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4.5 


PCHID, w)) 的 最 小 值 ， 它 决定 着 我 们 想 要 优化 的 曲面 P( mw ) =-logP( Dlw )。 这 
样 整个 优化 过 程 就 变 为 使 似 然 度 最 大 化 来 确保 小 的 互 精 ， 而 不 必 离 P( 吾 iD, w) 
的 值 太 远 。 对 G 进 行 向 量 求 导 即 得 到 





39G__9logP(Dhw) | a (HID, w)/ ow 47) 
ow ow zen) P(HID, w) (4 
当 w=w 时 上 式 右 边 的 第 2 项 被 消 掉 ， 这 样 : 
3G 7 -2sP (OW)| (48) 
Bw bee’ w wow 














新 曲面 G 的 切 向 量 与 原 曲面 F( w ) =-logP( Dlw ) 的 切 向 量 相同 。 因 此 ， 负 对 数 做 
然 度 的 梯度 下 降 与 EM 算法 的 下 降 在 同一 个 方向 上 ( 图 4-1 )。 当 分 布 P( D, Hhv ) 
为 指数 族 时 ，EM 算 法 将 变 得 更 加 简单 。 尤 其 是 在 这 种 情况 下 ， 函 数 G 始 终 为 凸 函 
数 。EM 算 法 在 分 布 为 指数 族 的 情况 下 的 特殊 性 将 留 做 习题 。 

最 后 ， 任 何 通过 下 降 函 数 G ( 无 需 找到 其 最 小 值 )， 进 而 改善 似 然 度 的 算法 被 
称 为 GEM (广义 EM 算法 ) 算法 。'!”| 前 面 的 几何 图 形 显示 ， 在 似 然 度 上 的 梯度 
下 降 法 可 以 看 做 是 一 种 GEM 算 法 关于 步骤 E 和 步骤 M 如 何 分 开 执 行 以 实现 在 线 
计算 的 讨论 见 参考 文献 [ 400 ])。 



























































马尔 可 夫 链 一 蒙特 卡 罗 方 法 


马尔 可 夫 链 一 蒙特 卡 罗 ( MCMC ) 方法 属于 与 统计 物理 有 关 的 随机 方法 中 重 
要 的 一 类 。 现 在 它 越 来 越 多 地 被 用 于 贝 叶 斯 推断 和 机 器 学 习 中 。[57820239652069] 我 
们 回忆 一 下 ， 广 义 中叶 斯 体系 的 一 个 基本 目标 是 计算 出 高 维 概率 分 布 PC(z，, x, 
的 期 望 值 ， 其 中 zx 可 以 是 模型 的 参数 或 者 隐 变 量 的 值 ， 也 可 以 是 观测 到 的 数据 。 
MCMC 的 两 个 基本 思想 非常 简单 。 其 中 第 一 个 思想 (蒙特 卡 罗 ) 是 用 下 式 估计 期 
望 值 : 























B= E sarnana) Saat) aa) 
Kar An 1=0 
对 于 较 大 的 T， 根 据 分 布 P( x1,…, x) 进行 采样 得 到 (x! ,…, x )。 为 了 从 分 布 P 
中 采样 ， 第 二 个 思想 即 是 构造 一 el 使 得 它 的 平衡 分 布 为 P。 然后 对 
这 条 马尔 可 夫 链 进行 模拟 并 试图 对 其 平衡 分 布 进行 采样 。 
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在 我 们 考察 马尔 可 夫 链 的 基本 原理 之 前 ， 有 几 点 值得 注意 。( 4.9 ) 右边 信 
计 的 均值 为 E(f)。 如 果 采 样 点 相互 独立 ， 它 的 方差 即 为 Var (了 ) /7。 在 这 种 情 
况 下 ,估计 值 的 精度 使 不 依赖 于 采样 空间 的 维 数 。 重 要 性 采样 (importance 
sampling ) 和 拒绝 采样 (rejection sampling) 是 产生 独立 采样 点 的 两 个 著名 的 
蒙特 卡 罗 算 法 ， 这 里 我 们 对 此 将 不 做 讨论 。 但 这 两 个 算法 在 高 维 状态 空间 中 是 
低 效 的 。 用 马尔 可 大 链 方法 产生 的 采样 点 是 不 独立 的 。 但 在 平衡 状态 这 些 样本 
的 分 布 为 P。 一 个 采样 点 对 前 一 个 样本 的 依赖 性 是 在 高 维 空间 中 MCMC 方 法 具 
有 较 高 效率 的 关键 所 在 。 毕 吝 ， 如 果 P 可 微 甚 至 仅仅 连续 ， 一 个 样本 的 概率 
P (x,…, x) 能 够 同时 提供 它 相 邻 样 本 的 信息 。 甚 至 为 了 计算 方便 ，P 被 视 为 
一 个 归 一 化 常数 时 ， 上 述 性 质 仍然 成 立 。 最 后 ，MCMC 方 法 与 其 他 建立 在 单 
点 估计 基础 上 的 方法 一 样 ， 最 多 只 是 对 理想 的 贝 叶 斯 推断 过 程 的 一 种 近似 。 它 
依赖 于 给 定 样本 D 计 算出 P(E(f) ID) 的 值 。 


4.5.1 ”马尔 可 夫 链 


马尔 可 夫 链 的 理论 菇 础 已 经 十 分 完善 。'"] 这 里 我 们 仅仅 回顾 一 下 最 基本 的 
概念 ， 其 他 内 容 请 读者 参考 有 关 的 课本 、 文 献 。 如 同 在 统计 力学 中 ， 考 虑 一 个 具 
有 S| 个 状态 的 系统 5={51, 59, …, so PERRIS, S, 0, 8 … 代 表 不 同时 刻 的 系 
统 状态 ， 这 样 从 1 到 18| 的 每 一 个 整数 分 别 代表 这 条 链 的 一 个 状态 。 在 任何 时 刻 ， 
这 条 链 者 处 于 一 个 特定 状态 。 变 量 5' 构 成 一 条 马尔 可 夫 链 ， 当 且 仪 当 对 于 任何 时 
AA: 









































PC SHIS, S) =PCS* IS) (4.10) 


直观 上 我 们 还 可 以 这 样 说 : 未 来 只 通过 现在 与 过 去 相 联系 。8 称 做 /时刻 链 的 
状态 。 一 条 马尔 可 夫 链 可 以 由 初始 分 布 PC 8 ) 和 转移 概率 P=P( Se418 ) 完全 确定 。 
这 里 我 们 只 考虑 静态 马尔 可 夫 链 ， 即 转移 概率 是 与 时 间 无 关 的 常数 。 这 样 马尔 可 
大 链 的 转移 矩阵 可 写 为 T- ( ty)， 其 中 4 表示 从 状态 s 到 状态 的 转移 概率 。 这 里 请 
ER, 5 (4.9) 相对 应 ， 链 的 空间 由 坐标 "1,…, %, 给 出 ， 也 就 是 说 每 一 个 是 一 个 
n 维 变量 。 

如 果 一 条 链 的 状态 空间 达到 某 种 分 布 后 就 保持 不 变 , 则 说 此 分 布 为 平稳 分 布 。 
此 平稳 分 布 2 必须 满足 平衡 方程 


(=Saan)- 上 -ju i) + 10(s;) (4.11) 


Ja jei 
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-D0(s)+ E rols) =0 (4.12) 


jai Jei 


这 样 ， 平 稳 的 充分 条 件 为 下 列 平衡 方程 组 成 立 : 
Csi) =s) (4.13) 





其 中 i，j 汶 表示 状态 的 正 整数 。 这 表明 由 状态 s, 到 5 平均 转移 次 数 等 于 由 状态 s, 到 状 
态 s 平 均 转移 次 数 ， 从 而 所 有 状态 上 的 总 体 分 布 保持 不 变 。 








一 条 马尔 可 夫 链 - - 般 有 几 个 平稳 分 布 。 而 有 限 状 态 空间 的 马尔 可 夫 链 至 少 存 
在 一 个 平稳 分 布 。 显 然 ， 在 MCMC 采 样 过 程 中 ， 实 际 上 在 要 求 更 强 的 条 件 即 各 态 


遍历 分 布 的 情况 下 ， 我 们 主要 关心 平稳 分 布 。 





这 里 我 们 定义 一 个 分 布 为 各 态 遍 历 


分 布 ， 当 且 仅 当 不 论 这 条 链 在 0 时 刻 的 初始 分 布 如 何 ， 它 总 会 收 敏 到 该 分 布 。 各 态 
遍历 切 尔 可 夫 链 中 只 存在 一 个 平稳 分 布 ， 称 为 平衡 分 布 (equilibrium distribution )。 
现在 马尔 可 夫 链 具有 各 态 遍 历 性 的 条 件 ， 以 及 它 收 敛 到 平衡 状态 的 速率 都 已 经 很 








清楚 了 。 [150,180] 





为 了 达到 从 P (xi, …, x ) 中 采样 的 目的 ， 我 们 现在 来 讨论 两 个 主要 的 


MCMC 算 法 : 吉 布 斯 采样 ( Gibbs Sampling ) 
45.2 BAM 


和 Metropolis 算 法 。 


吉 布 斯 采样 ， 也 叫 热 浴 ( heatbath ) 方法 ， 是 一 种 最 简单 的 MCMC 算 法 。[291 
它 的 适用 范围 很 广 ， 特 别 是 当 条 件 分 布 P〈 zl : jxi) 容易 计算 或 变量 x 从 一 个 很 




















小 的 集合 中 取信 时 。 在 吉 布 斯 采样 过 程 中 ， 依 














据 所 有 其 他 变量 当前 的 值 ， 选 代 地 对 





其 中 每 一 个 变量 进行 采样 。 从 ( x ，…，x! ) 开始 ， 





LARGE CXL oh, gees xk) 选取 xf ASA 
2. AEP OX) xf", ahve, oh) 选取 AL 


n. 依据 P(X aft, ast, att) 选取 xt AYA 
据 此 ， 我 们 依次 对 变量 进行 循环 操作 。 我 们 也 可 以 采用 其 他 循环 顺序 ， 或 者 在 每 











一 步 中 都 选取 相同 的 变量 。 其 至 可 以 应 用 任何 








全 


他 国定 分 布 ， 只 要 每 一 个 变量 被 











访问 的 概率 不 为 0。 也 可 以 对 变量 成 组 地 采样 ， 而 不 是 一 个 一 个 地 采样 。 由 定义 容 


易 验 证 ， 吉 布 斯 采 祥 算法 可 以 最 终 得 到 一 个 了 





F 稳 分 布 。 有 关 各 态 遍 历 性 的 证 明和 
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其 他 内 容 可 以 在 上 述 有 关 MCMC 方 法 的 一 般 文献 及 参考 文献 [209,191,490 ] 中 找 
到 。 附 录 C 给 了 一 个 用 于 贝 叶 斯 网 络 的 吉 布 斯 采样 方程 的 例子 。 下 面 将 要 讨论 另 
一 个 MCMC 方 法 : Metropolis 算 法 。 吉 布 斯 采样 是 这 种 算法 的 一 种 特例 。 


4.5.3 ”Metropolis 算 法 


这 里 假定 我 们 的 月 标 仍然 是 从 一 个 给 定 分 布 P(s) =P Coy, x ) 中 采样 。 
Metropolis 算 法 (°°) 是 对 现 有 状态 施加 随机 扰动 ， 然 后 依据 状态 概率 的 变化 来 判 
断 该 状态 是 否 可 被 接受 。 

准确 地 说 ，Metropolis 算 法 中 应 用 了 两 个 辅助 的 分 布 族 8 和 R。Q= (gq, ) 为 选 
择 分 布 【selection distribution ), 其 中 gq, 表示 处 于 状态 5 时 选择 状态 s, 的 概率 。 R= 
(ry) 为 接受 分 布 ( acceptance distribution )， 其 中 表示 处 于 状态 s, 并 选择 s) 为 下 一 
PREREHRERE BR. PARA, 120, HE ql CRB 
下 面 的 部 分 ， 并 且 在 大 多 数 实际 情况 中 ， 可 以 假设 0 具有 对 称 性 ， 即 qj=q;， 但 这 
个 假设 并 不 是 必要 的 。 从 ! 时 刻 的 状态 开始 ( s=s )， 此 算法 的 过 程 如 下 : 

上 根据 分 布 9 随机 选择 一 个 状态 sf# 

2 MER ARER MS =R Ar, SAREAN -ro 
在 Metropolis 算 法 的 最 一 般 形式 中 ， 接 受 分 布 定义 为 ， 


= minl 2 加 
% =r aa) (4.14) 


我 们 把 将 “ 吉 布 斯 采样 方法 可 以 写成 Metropolis 算 法 的 形式 ” 这 一 证 明 留 做 习题 。 
当 P 被 表示 为 能 量 函 数 的 形式 ， 即 P(s) <2 Ven, (4.14) 可 写 做 


= mifi, GE 1) - min 人 erenn) (4.15) 









































注意 到 这 里 只 舌 要 概率 的 比 ， 而 不 需要 分 割 函 数 本 身 。 所 以 ， 此 算法 可 以 表示 成 
我 们 更 部 悉 的 形式 ; 
L 根据 分 布 gj 随机 选择 一 个 状态 si; 
2. SECs) SEC) 时 ， 接 受 状态 s,; MEC) ECs) 时 ， 以 概率 eR 
接受 状态 sj， 当 状态 被 拒绝 时 ， 停 留 在 状态 5,。 
可 以 很 容易 地 验证 ， 在 Metropolis 算 法 中 分 布 P 是 平稳 的 。 我 们 有 t=qyP (5;) IPCs) 
和 w=qs。 因 此 Q 是 尘 称 的 ， 立 即 可 以 得 出 


PCs) t=P(s) ty (4.16) 
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4.6 


换 各 话说， 出 于 上 述 平衡 方程 组 成 立 ， 所 以 P 是 平稳 的 。 
保证 各 态 遍 历 性 的 充 要 条 件 是 确保 链 中 下 存在 吸收 态 。 也 就 是 说 从 任意 状态 
5 到 任意 状态 "总 存在 一 条 转移 概率 不 为 0 的 路 径 。 当 然 ， 这 吧 决 于 gu 的 结构 。 还 
有 几 点 需要 说 明 。 当 且 仪 当 gy>0 时 ， 用 -条 边 连 接 两 点 和}， 我 们 就 可 以 爸 造 一 
个 图 G。 如 果 所 得 公 的 图 是 完全 图 (或 者 仪 仅 非常 稠密 )， 那 么 这 条 链 显然 是 各 态 
遍历 的 。 这 种 Metropolis 算 法 是 全 局 的 ， 因 为 当 此 图 为 稠密 而 非 完全 图 时 ， 从 任 
意 状态 :转移 到 任意 状态 j 都 存在 鸦 0 的 一 步 转移 概率 或 多 步 转 移 概率 。 当 图 比较 稀 
牙 时 ， 则 包含 了 多 个 局 部 的 Metropolis 算 法 。 此 时 只 要 保证 任意 两 点 间 至 少 存在 
一 条 通路 ， 各 态 遍 历 性 就 依然 成 立 。 例 如 可 以 对 各 部 分 分 别 使 用 这 一 算法 ， 每 次 
扰动 其 中 的 -= 部分。 在 大 多 数 的 实际 应 用 中 ， 从 点 到 与 之 相 邻 的 各 个 点 j 的 选择 
概率 gq 是 相同 的 。 一 般 gj 被 定 为 0， 但 这 并 不 影响 RAAR 

Metropolis 算 法 还 有 几 种 变形 和 推广 。 例 如 ， 使 用 能 量 函 数 的 导数 、 其 他 接 
受 函 数 999] 或 聚 类 蒙特 卡 罗 算法 。!50597 在 特定 情况 下 ， 我 们 甚至 可 以 去 掉 @ 
为 对 称 的 条 件 ， 只 要 对 接受 画 数 R 做 如 下 的 修改 ， 平 衡 仍然 得 以 保持 ; 

Pls)g, \ 


ry = min] 1, (4.17) 
Pls; aij 

































































模拟 退火 算法 


模拟 退火 算法 1 1 (有 关 综述 见 参考 文献 [67 ] ) 是 一 种 受 统计 力学 启发 的 
通用 的 优化 算法 。 它 将 MCMC 的 思想 ， 如 Metropolis 算 法 和 降温 过 程 相 结合 。 它 的 
名 宁 起 源 于 冶金 学 。 在 冶金 学 由， 经 过 退火 处 理 ( 缓慢 冷却 ) WAR 
处 理 (快速 冷却 ) 的 金属 的 性 能 要 好 。 人 金属 宏观 的 高 强度 对 应 于 内 部 分 子 的 低能 
量 状态 。 

考虑 函数 Oe x) 的 最 小 化 问题 。 不 失 一 般 性 ， 我 们 假设 对 于 任意 点 都 
有 />0。- 般 我 们 可 以 认为 了 表示 具有 状态 ;= (xy, x ) 的 一 个 统计 力学 系统 的 
能 量 。 我 们 已 经 知道 ， 在 温度 7 ， 系 统 处 于 状态 s 的 概率 可 由 波 耳 兹 盎 - 吉 布 斯 
分 布 给 出 : PCs) =P(xz… x) se O 1Z。 埋 解 模拟 退火 算法 的 首要 关键 是 ; 
在 低温 下 ， 波 耳 兹 曙 - 吉 布 斯 分 布 主要 被 能 量 最 低 的 状态 占据 ， 即 它们 成 为 最 可 
能 的 状态 。 实 际 上 ， 如 果 函 数 / 达到 最 小 值 时 的 状态 为 m， 我 们 有 


lim P(s) = K m 如 果 * 为 能 量 基态 
0 ”其 他 情况 (418) 
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如 果 我 们 能 够 在 0 度 附 近 模 拟 系统 , 我 们 将 立即 找到 能 量 基态 , 即 了 的 最 小 值 。 
问题 是 在 一 般 情况 下 ， 任 何 MCMC 方 法 都 不 能 在 有 限时 间 内 达到 波 耳 兹 螺 - 吉 布 
斯 平衡 分 布 ， 因 为 在 状态 空间 中 的 移动 受到 一 些 概率 极 小 的 区 域 〈 高 能 势 垒 ) 的 
限制 。 模 拟 退 火 算法 试图 通过 起 始 于 小 耳 效 曼 - 吉 布 斯 分 布 接近 于 平均 分 布 的 高 
温 状 态 ， 并 根据 逐步 降温 的 退火 过 程 来 解 次 这 一 问题 。 由 于 异 拟 退火 经 常 与 
Metropelis 算 法 结合 使 用 ， 它 实际 上 可 以 适用 于 任何 MCMC 方 法 ， 特 别 是 吉 布 斯 
采样 。 

退火 过 程 具有 至 关 重 上 要 的 作用 。 有 许多 理论 结果 !'”! 表明 ， 退 火 过 程 满足 下 
列 对 数 形式 : 


















































K 
Togt 
其 中 :>1。 对 于 常数 & 的 某 些 取 值 ， 这 一 算法 几乎 定 收 化 于 某 一 基态 (有关 K 的 
下 限 见 参考 文献 [230 ] )。( 通过 上 下 文 区 分 表示 温度 的 T 和 表示 时 间 的 7。) 直观 
上 ,这 一 点 很 容易 理解 。 35- 如 果 我 们 用 sww 和 si 分别 表示 具有 最 大 能 量 和 最 小 
能 量 的 两 个 状态 ， 从 波 耳 兹 曼 - 吉 布 斯 分 布 可 以 得 出 


Plus) (1° 


P (Smin) AT. 


t 
其 中 AFE= 下 (yaox ) —E( Spin )。 如 果 取 K=AE/k， 我 们 就 有 P' C sma) =P" C Smin ) Mo 
这 样 ， 对 于 任意 状态 *， 有 


T= (4.19) 











(4.20) 











P' (s= P(S) =E P (sn) EP (Smin) (4.21) 


特别 注意 一 点 ， 在 退火 过 程 中 , 任 一 状态 s 被 访问 次 数 的 下 限 为 P pin) E, Wt, 
而 P smn) 1/ 是 发 散 的 。 这 样 ， 当 天 的 取 值 对 应 于 最 高 能 量 势 又 时 ， 此 算法 将 
不 可 能 再 收敛 于 局 部 极 小 值 点 。 

但 是 必须 注意 人 到， 对 数 形式 的 退火 过 程 非常 缓慢 ,一般 无 法 应 用 于 实际 计算 。 
它 要 求 访问 绝 大 部 分 可 能 的 状态 ， 这 就 几乎 等 同 于 穷 举 搜索 。 因 此 采用 这 种 方法 
必然 会 得 到 全 局 最 优 值 。 另 一 方面 ， 如 果 有 一 种 方法 可 以 替代 穷 举 搜索 ， 它 必然 
会 优先 得 到 应 用 。 我 们 关心 的 大 部 分 问题 都 是 NP 完全 问题 ， 它 们 具有 指数 级 的 可 
能 状态 ， 使 得 我 们 无 法 应 用 穷 举 搜索 法 。 在 实际 中 ,模拟 退火 必须 采用 更 快 的 形 
式 ， 例 如 采用 几何 退火 的 形式 : 





























T= prt! (4.22) 
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4.7 


4.8 


其 中 0<p<1。 自 然 地 ， 在 这 种 情况 下 ， 所 能 期 望 得 到 的 最 好 结果 是 普 这 地 收 伍 到 
对 应 于 低能 点 的 近似 解 ， 而 不 是 全 局 最 小 值 。 

其 他 与 模拟 退火 算法 l 和 MCMC 基 本 思想 相关 的 算法 ， 如 动态 混合 式 
蒙特 卡 罗 方法 ，! 5296] 在 参考 文献 中 有 详细 讨 沦 。 











进化 和 遗传 算法 





进化 算法 12614761 ( evolutionary algorithms) 具有 特殊 的 意义 ， 因 为 它 的 启 
示 来 源 于 进化 ， 而 进化 正 是 我 们 研究 的 核心 领域 。 进 化 算法 是 优化 算法 中 的 一 个 
大 类 ， 它 试图 通过 某 种 方式 模拟 我 们 自 认 为 了 解 的 进化 过 程 的 内 在 机 制 。 这 一 类 
算法 的 共同 组 成 部 分 是 产生 随机 扰动 或 突变 ， 通 过 提供 一 个 适应 函数 来 对 所 给 点 
进行 评估 ， 并 滤 除 那些 不 适用 的 突变 。 在 这 个 意义 上 ， 随 机 下 降 法 甚至 模拟 退火 
算法 都 可 以 看 做 是 一 种 特殊 的 进化 算法 。 进 化 算法 的 一 个 最 大 子 类 是 遗传 算法 
( genetic algorithms ), 

遗传 算法 [2531 和 相关 的 人 工 生命 领域 通过 模拟 点 群 在 适应 度 空间 的 进化 ， 
将 模拟 进化 又 向 前 推进 了 一 步 。 而 且 ， 除 了 利用 突变 ， 遗 传 算法 还 通过 大 量 模 拟 
基因 操作 和 有 性 繁殖 的 其 他 方式 ( 如 交叉 ) 产生 新 的 点 。 虽 然 遗 传 算法 非常 灵活 ， 
并 使 复杂 的 事物 如 计算 机 程序 的 进化 成 为 可 能 ,但 是 这 种 算法 在 现 有 的 计算 机 上 
运行 得 很 慢 。 遗 传 算法 在 分 子 生 物 学 上 的 应 用 见 参考 文献 [ 329,233,415 ] 。 在 参 
考 文献 [53 ] 及 其 所 提 到 的 参考 文献 中 还 介绍 『 其 他 进化 算法 。 本 书 将 不 再 对 它 
们 做 进一步 的 讨论 。 























学 习 算法 的 相关 技术 细节 





与 学 习 算法 相关 的 许多 实现 细节 、 启 发 法 和 技巧 是 十 分 重要 的 。 有 关 这 些 技 
巧 的 大 量 材 料 可 以 在 NIPS( 神经 信息 处 理会 议 ) 的 年 会 论文 集中 找到 。 这 里 我 们 
只 是 从 一 般 的 角度 讨论 其 中 的 部 分 问题 。 一 些 与 特定 模型 有 关 的 技巧 将 在 相关 章 
节 中 给 出 。 


4.8.1 ”模型 复杂 度 控制 


在 某 种 方式 上 ， 建 模 者 总 是 变 面 对 一 个 问题 ， 即 在 数据 的 欠 拟 合 与 过 拟 合 之 
间 、 在 模型 自由 度 的 高 与 低 之 间 寻 求 平 衡 。 这 个 问题 的 解决 方案 之 -- ， 是 在 真实 
的 似 然 数 中 加 入 代表 模型 复杂 度 的 一 项 ， 用 于 正则 化 。 这 一 方法 的 基本 原理 基 
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于 一 些 将 训练 误差 和 推广 误差 6 关联 起 来 的 等 式 和 约束 条 件 。 约 束 条 件 一 般 为 
ZEo 和 Er+C， 其 中 C 反 映 了 模型 的 复杂 度 。 这 个 公式 的 例子 可 以 在 参考 文献 [ 533 ] 
和 参考 文献 [ 5,16 ] 中 找到 ， 前 者 应 用 了 VC 维 数 的 概念 ， 而 后 者 应 用 了 统计 通 近 
理论 。 这 样 ， 通 过 最 小 化 正则 化 的 训练 误差 Ej+C 来 最 小 化 推 儿 误差 G6。 上 其 中 下 ; 表 
示 数 据 拟 合 度 ，C 则 经 常 被 视 为 偏好 简单 模型 的 先 验 知识 。 这 样 的 处 理 方法 可 以 得 
到 很 好 的 结果 并 具有 启发 价值 。 但 是 正如 第 2 章 指出 的 ， 从 贝 叶 斯 分 析 的 角度 来 看 ， 
这 种 方法 也 存在 一 些 弱点 。 对 于 复杂 的 数据 ， 期 望 数据 是 由 简单 模型 产生 的 这 种 
先 验 知识 没有 意义 。 一 般 来 说 ， 我 们 建议 采用 更 加 有 效 的 ， 自 由 度 很 高 的 模型 ， 
并 通过 赋予 模型 的 参数 和 结构 更 大 的 自由 度 和 较 强 的 先 验 概率 控制 过 拟 合 问题 ， 
而 不 是 直接 限制 整个 模型 的 复杂 度 。 


4.8.2 ”在 线 /成 批 学 习 


在 数据 到 来 之 时 或 在 每 个 样本 提交 后 ， 就 进行 一 定 的 模型 拟 合 和 参数 调整 ， 
这 种 学 习 方式 被 称 为 在 线 方式 (online learning )。 另 一 方面 ， 如 果 参 数值 只 是 在 
大 量 样 本 〔〈 如 果 不 是 整个 训练 集 的 话 ) 提交 后 才 进 行 调整 ， 这 种 学 习 方 式 被 称 为 
RAE (batch ) 或 离线 (offline) 方式 。 很 显然 两 者 之 间 存 在 着 一 系列 可 能 的 方式 。 
在 线 学 习 在 一 些 方面 存在 优势 ， 它 不 需要 记忆 很 多 训练 样本 ， 这 使 它 更 具 灵 活性 
和 易于 应 用 。 另 外 它 可 以 随 着 数据 的 到 来 更 新 自己 的 信念 ( belief )， 这 更 接近 贝 
叶 斯 分 析 的 精髓 ， 而 这 似乎 正 是 生物 系统 学 习 的 方式 。 更 重要 的 是 ， 随 着 每 个 样 
本 的 到 来 而 进行 的 学 习 可 以 引信-- 定 程度 的 随机 性 ， 这 样 有 助 于 搜索 解 空 间 ， 训 
兔 局 限于 某 个 局 部 极 小 值 点。 当然 还 可 以 证 明 ， 当 学 习 率 充分 小 时 ， 在 线 学 习 即 
可 近似 为 成 批 学 习 ( 见 参考 文献 【49 ] )。 正 因 如 此 ， 在 这 本 书 中 我 们 一 般 只 提供 
在 线 学 习 方程 。 


4.8.3 ”训练 /测试 /检验 


一 种 广泛 应 用 的 方法 是 只 用 数据 的 一 部 分 进行 模型 拟 合 ， 而 用 剩 下 的 数据 或 
其 中 一 部 分 进行 模型 的 检验 。 应 该 看 到 这 样 的 应 用 方法 不 完全 是 贝 时 斯 分 析 的 方 
法 ， 因 为 在 第 2 章 所 提 到 的 一 般 体系 中 ， 所 有 数据 都 被 用 于 模型 拟 合 ， 而 无 需 进 
行 检验 。 实 际 上 ， 交叉 验证 技术 仍 非 常 有 用 ， 因 为 它们 一 般 容 易 应 用 并 能 产生 较 
好 的 结果 ， 特 别 是 当 数 据 总 数 充分 的 时 候 。 另 一 点 要 说 明 的 是 ， 可 以 有 许多 方法 
将 数据 分 割 为 不 同 的 子 集 并 指定 它们 用 于 训练 还 是 检验 。 例 如 ， 不 同 的 数据 集 可 
以 训练 不 同 的 专家 模型 ， 然 后 再 将 它们 合并 起 来 ， 而 检验 集 可 以 用 来 决定 超 参数 
的 值 。 当 数据 相对 有 限时 ， 这 种 处 理 方法 就 变 得 更 加 重要 。 央 此 只 要 可 能 ， 最 好 
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拥有 三 个 不 同 的 数据 集 : 一 个 用 于 训练 ， 一 个 用 于 检验 和 训练 调节 ， 一 个 用 于 总 
体 性 能 的 测试 。 
在 生物 信息 学 中 ， 序 绚 很 可 能 由 于 具有 共同 的 祖先 而 相互 关联 ， 因 此 还 有 
些 需 要 特 草 注意 的 地 方 。 在 第 ! 章 中 详细 论述 了 构造 低 相 似 性 测试 集 的 问题 ， 这 

对 于 可 靠 评 估 机 器 学 习 方 法 的 预测 性 能 可 能 具有 重要 意义 。 


4.8.4 ”提前 结束 


当 一 个 异型 相对 于 可 用 数据 过 于 灵活 【因为 包含 了 过 多 的 参数 ) 时， 在 训练 
过 程 中 将 观察 到 过 拟 合 。 这 意味 着 ， 当 训练 误差 随 着 训练 次 数 单调 递减 时 ， 检 验 
集 上 的 误差 起 初 也 跟着 减 小 ， 但 其 到 达 某 一 最 小 值 时 又 开始 增加 。 这 样 ， 过 拟 合 
与 模型 对 训练 数据 的 记忆 或 数据 拟 合 中 的 噪声 相 联系 ， 达 到 了 一 种 不 利于 推广 的 
程度 。 这 种 情况 下 ， 当 然 得 对 模型 进行 修改 。 另 一 种 广泛 应 用 的 折 中 方法 是 提前 
结束 (early stopping )， 即 当 训 练 误 差 率 达 到 某 一 国 值 或 完成 一 定 次 数 的 训练 周 
期 后 停止 训练 ， 但 阔 值 或 者 周期 次 数 不 容 易 确定 。 一 种 可 行 的 方法 是 ， 当 误 
在 不 同 于 训练 集 的 检验 集 上 开始 上 升 时 即 停止 训练 。 这 种 方法 的 缺点 在 于 必须 四 
牲 一 部 分 数据 用 于 检验 。 并 且 ， 这 种 形式 的 提前 结束 仍然 会 导致 测试 数据 中 用 于 
检验 的 数据 的 部 分 过 拟 合 。 换 名 话说， 用 于 决定 何 时 停止 训练 的 模型 在 检验 集 上 
的 性 能 ， 一 般 要 优 于 它 在 新 数据 上 的 总 体 推广 性 能 。 即 使 这 样 ， 同 其 他 检验 方法 
一 样 ， 提 前 结束 方法 在 实践 中 易于 应 用 ， 特 别 是 对 于 数据 充足 的 情况 。 


4.8.5 ”模型 集 / 系 综 


当 一 个 复杂 模型 采用 ML 或 MAP 优 化 方法 来 拟 合 数据 时 ， 可 以 道 过 在 学 习 
过 程 中 改变 许多 条 件 ， 如 初始 参数 值 、 学 习 率 、 样 本 的 提供 顺序 、 训 练 集 等 ， 
来 得 到 不 同 的 模型 参数 。 另 外 ， 还 可 以 试验 不 同类 型 的 模型 。 通 过 对 不 同 模 
型 或 专家 的 看 法 进行 某 种 平均 ， 可 能 得 到 更 好 的 预测 或 分 类 〔 附录 A 和 参考 文 
献 [ 223,237,277,568,426,340,339 ] )。 解 决 一 个 特定 问题 的 模型 集 (ensemble ) 
又 称 为 一 个 系 综 ， 这 与 统计 力学 相似 〔 参见 文献 中 决策 机 制 的 相关 概念 )。 这 一 
BAW TEE, OF a, ARR NTE TRA KF 
SRA (MFB: Jensen 不 等 式 )。 这 样 ， 总 体 的 性 能 要 优 于 某 一 个 专家 成 员 。 有 
多 种 方法 用 于 组 合 由 不 同 模型 产生 的 预测 。 广 泛 采用 的 方式 是 进行 平均 ， 也 可 以 
有 其 他 方法 ， 例 如 加 权 平 均 ， 包 括 训 练 时 学 习 权重 的 可 能 性 。 注 意 对 于 在 第 2 章 
的 贝 叶 斯 体系 中 完全 确定 的 那 类 模型 ， 最 优 预 测 是 通过 在 所 有 可 能 模型 上 的 积分 
得 到 的 【参见 《2.18 ) ] 。 因 此 ， 模 型 的 平均 即 可 以 作为 这 种 积分 的 近似 。 
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4.8.6 ”平衡 和 加 权 方 案 


一 个 需要 考虑 的 重要 问题 是 训练 集 是 否 平衡 。 在 二 项 分 类 问题 中 ， 可 用 的 正 
样本 数量 与 负 样本 数量 可 能 相差 很 类。 同样 地 ， 在 多 项 分 类 中 ， 每 - -类 可 得 到 的 
数据 的 比例 也 会 存在 很 大 差别 。 这 种 情况 在 生物 数据 库 中 更 加 严重 。 例 如 在 第 1 
章 中 所 描述 的 ， 由 于 大 量 的 不 同 因素 ， 会 造成 某 些 生物 体 或 某 些 类 别 的 序列 高 显 
HL ( overrepresented )。 

理想 情况 下 ,为 了 正确 分 类 ， 所 有 相关 类 的 数据 在 训练 集中 出 现 的 机 会 应 该 
相等 。 第 6 章 将 描述 这 种 平衡 训练 的 方法 。 在 一 些 情况 下 ， 训 练 集中 某 个 类 的 数 
据 显现 度 低 将 导 化 这 个 类 的 预测 性 能 很 差 。 这 种 情况 经 常 作为 信息 缺失 的 依据 ， 
例如 : 进行 6 折 秋 项 测 就 需要 比 进行 螺旋 预测 更 多 的 长 程序 列 信息 。 有 虽然 任何 重 
白质 结构 预测 方法 都 可 以 通过 加 入 适当 的 长 程 信息 而 改善 ， 但 通过 应 用 平衡 训练 
方案 ，b 折 肥 的 性 能 就 可 以 得 到 显著 提高 。* ?1 

另 一 种 解决 方法 是 使 用 加 权 方案 人 工 平衡 训练 集 。 它 等 效 于 将 稀少 的 样本 进 
行 多 次 复制 。 为 了 研究 DNA 和 蛋白质 序列 ， 尤 其 是 多 重 序 询 比 对 问题 ， 人 们 设计 
了 一 系列 加 权 方 案 。- :03648720129237] 参考 文献 [337 ] 中 的 加 权 方 案 非常 有 趣 ， 
CARK A EE ERR o 

由 于 篇 幅 关 系 还 有 许多 技术 我 们 没有 涉及 到 。 它 们 都 可 以 在 NIPS 的 年 会 论文 
集 和 其 他 有 关 神 经 网 络 技术 的 文献 中 找到 。 这 些 技术 包括 : 

。 主动 采样 。 
。 剪 枝 方 法 。 这 是 一 种 在 学 习 过 程 中 成 过 程 后 对 模 列 进行 简化 的 方法 。 一 般 
来 说 ， 它 包括 寻找 方法 来 决定 模型 中 哪些 参数 对 模型 的 性 能 几乎 没有 影响 ， 
然后 删除 它们 。 多 余 的 参数 不 光 是 指 那 些 数值 很 小 的 参数 ， 还 包括 那些 互 
相 抑制 而 对 模型 页 献 很 小 的 参数 。 

© 2 阶 信息 估计 方法 。 这 些 方法 通过 计算 或 估计 似 然 度 的 Hessian 和 矩阵， 从 而 

利用 2 阶 信息 油 节 学 习 率 或 计算 误差 带 等 。 对 Hessian 和 矩阵 的 有 效 估计 是 一 
个 有 趣 的 问题 ， 必 须 针对 具体 的 模型 加 以 考虑 。 
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5.1 概 述 


ALA (artificial neural network )， 也 称 神经 网 络 ( NN ),，' 4235270] 它 
的 提出 源 于 模拟 大 脑 的 信息 处 理 和 学 习 过 程 。 虽 然 模 仿 大 脑 依然 是 建 模 的 灵感 源 
泉 ， 但 现在 大 多 数 人 工 神经 网 络 中 使 用 的 神经 元 与 生物 神经 元 有 很 大 的 差别 。[s 
人 工 神经 网 络 不 断 发 展 ， 它 在 各 个 领域 (包括 计算 分 子 生 物 学 领域 ) 都 获得 大 量 
的 实际 应 用 。 人 工 神经 网 络 技 术 口 益 成 为 解决 序列 分 析 和 模式 识别 问题 的 机 器 学 
习 技 术 的 一 项 重要 工具 。 

根本 上 而 言 ， 神 经 网 络 可 以 看 做 参数 化 图 模型 的 一 大 类 别 ， 这 些 图 模型 是 由 
一 些 随时 间 变 化 、 交 互 连 接 的 神经 元 组 成 的 网 络 。 本 书 中 仅 使 用 点 到 点 的 相互 连 
接 构成 神经 网 络 ， 当 然 如 果 需 要 ， 可 以 使 用 与 多 个 神经 元 节点 相关 的 复杂 连接 ， 
来 构造 高 阶 或 “sigma-pi” 类 型 的 神经 网 络 。! 461 由 神经 元 /到 神经 元 ;的 连接 权重 
记 做 wye 这 样 ， 神 经 网 络 可 表示 为 带 权重 的 有 向 图 或 结构 。 为 了 简化 起 见 ， 我 们 
不 考虑 节点 的 自 连接 ， 即 假设 对 所 有 神经 元 都 有 w=0。 

首先 需要 了 解 一 些 重要 的 神经 网 络 结构 类 型 ， 如 反馈 (recurrent )、 前 馈 
(feed-forward) 和 分 层 { layered ) 结构 。 反 馈 网 络 是 一 种 含有 有 向 环 的 网 络 。 不 
含有 向 环 的 网 络 称 为 前 馈 网 络 。 出 子 反馈 结构 的 网 络 动态 特性 较 复 杂 ， 将 在 第 9 
章 中 专门 讲述 。 如 果 神 经 元 被 分 为 儿 层 ， 而 且 各 层 之 间 存 在 连接 ， 该 类 网 络 为 分 
层 网 络 。 前 镇 网 络 不 一 定 是 分 层 网 络 。 

本 章 中 涉及 较 多 的 ， 目 前 在 分 子 生物 学 中 应 用 较 多 的 网 络 结构 为 分 层 前 锁 网 
络 ， 如 图 5-1 所 示 。 神 经 元 节点 通常 分 为 可 见 节点 ( visible unit) 和 隐 节 点 (hidden 
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CS —1 53 Ee a PS HIN { MLP } 
各 层 包含 数目 不 等 的 神经 元 ， 层 之 间 的 连接 方式 也 各 异 。 


unit) 两 类 。 可 见 节点 指 直接 与 外 界 作用 的 神经 元 节点 ， 如 输入 、 输 出 神经 元 节点 。 
大 部 分 情况 下 ， 在 简单 网 络 中 ,输入 、 输 出 神经 元 组 成 层 结构 ， 形 成 输出 层 和 输 
人 层 。 只 包含 隐 节 点 的 层 称 为 隐 层 。 神 经 网 络 的 规模 常常 以 层 数 衡量 。 当 然 ， 可 
以 简单 神经 网 络 的 模块 或 层次 模式 进一步 构造 更 为 复杂 的 整体 网 络 结构 。 神 经 网 
络 可 见 层 的 设计 取决 于 用 于 序 环 数据 编码 的 输入 方式 ， 以 及 通常 代表 结构 与 功能 
特征 的 输出 方式 。 
每 个 神经 元 节点 的 动态 行为 可 以 用 微分 方程 或 离散 差分 方程 ( 见 参 考 文 
献 [26] ) 描述 。 本 书 仅 涉 及 离散 差分 方程 形式 。 在 分 层 前 馈 神 经 网 络 中 ， 同 一 
层 中 所 有 的 神经 元 节点 同时 进行 更 新 ， 而 各 层 逐 次 顺序 更 新 。 有 时 采用 随机 型 神 
经 元 节点 效果 更 好 ( 参见 附录 C 关 于 图 模型 和 贝 叶 斯 网 络 的 部 分 )。 本 章 中 将 重点 
讨论 确定 型 的 神经 元 节点 。 通 常 节点 ;获得 与 其 连接 的 所 有 节点 的 输入 的 总 量 ， 记 
做 x;:， 产 生 输 出 y=fi (x;)， 其 中 f 是 该 节点 的 激活 函数 (transfer function )。 一 般 地 ， 
同一 层 的 所 有 节点 具有 相同 的 激活 函数 ， 总 的 输入 量 为 前 一 层 节点 总 输出 量 的 加 
权 和 。 节 点 的 输入 、 输 出 量 如 下 所 示 : 
me Yvert (5.1) 
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其 中 ww 为 节点 的 阐 值 。 这 也 可 以 看 做 加 入 一 个 连接 权重 为 wi、 输 出 性 为 1 的 附加 
节点 。 权 醒 wr 和 w; 为 神经 网 络 的 参数 。 在 更 一 般 的 神经 网 络 中 ， 还 可 能 拥有 其 
他 参数 ， 例 如 时 间 常 数 、 增 益 、 延 退 等 。 在 本 文 涉及 的 网 络 中 ， 参 数 的 总 数 由 
网 络 层 数 、 每 层 的 节点 数 、 层 之 问 的 连接 方式 决定 。 层 之 间 的 一 种 标准 连接 模 
式 为 “全 连接 "， 革 前 一 层 的 每 个 节点 与 下 一 层 的 每 个 节点 都 相连 。 局 部 连接 模 
式 越 多 ， 网 络 结构 越 经 济 。 然 而 值得 注意 的 是 ， 与 所 有 节点 的 全 连接 相 比 ， 层 
之 间 的 连接 数 有 是 ， 即 使 是 “全 连接 ”方式 的 连接 数 口 ， 也 是 稀 朴 的 。 在 参量 恒 
值 传递 的 情况 下 ， 对 于 前 一 层 中 的 一 组 节点 的 输出 ， 层 中 的 每 个 节点 操作 相同 。 
这 样 ， 一 种 简单 连接 模式 可 以 在 给 定 层 中 共 学 。 在 神经 网 络 中 ， 这 被 称 为 “ 权 
重 共享 "。 这 种 技术 普遍 应 用 于 图 像 处 理 问题 中 ， 在 使 用 不 同 距 离 测量 来 区 别 特 
征 的 序列 分 析 问 题 中 ， 它 也 获得 了 成 功 。 这 种 权重 共享 的 方法 定义 了 一 个 卷 积 
BK ( 滤波 器 )， 对 输入 做 统 -. 处 理 。 使 用 权重 共享 ， 即 使 各 层 的 节点 数目 较 多 ， 
关联 两 层 的 自由 参数 的 数量 也 会 较 少 。 在 6.3 节 的 二 级 结构 预测 中 ， 举 出 了 该 技 
术 应 用 的 一 个 实例 。 

很 多 形式 的 激活 函数 被 广泛 使 用 。 例 如 ， 在 回归 问题 中 ， 激 活 函数 是 线性 的 
(如 伍 等 函数 )， 此 时 的 节点 称 为 线性 节点 。 然 而 更 多 的 时 候 ， 激活 函数 是 非 线性 的 。 
有 界 激活 函数 也 被 称 为 压缩 函数 ( squashing function )。 当 7 为 一 个 阔 值 函数 时 ， 


| 1 4x0 
o 其 他 情况 


此 节点 也 称 为 图 值 门 节点 (threshold gate unit )。 阅 值 门 季 点 实现 二 人 决策 功能 ， 
该 决策 以 对 相关 节点 进行 加 权 评价 为 基础 。 显然 ， 国 值 的 选择 决定 了 立信 界线 的 
位 置 。 本 书 统一 采用 CO, +1 ) WER, RFA ( -1, +1) 之 类 的 其 他 什 城 定义 
范围 。 闭 值 门 节点 是 不 连续 的 ， 所 以 常常 用 sigmoidal 激 活 函 数 取代 ， 这 种 取代 的 
优点 在 于 使 函数 连续 可 微 。 本 书 巾 ， 采 用 logistic 数 活 函数 

L (54) 


saso) 


专门 用 于 估计 二 值 随机 事件 的 发 后 概率 。 而 使 用 诸如 F(x) =tanh (x) Alf (x) = 
arctan(x) 之 类 的 sigmoidal 激 活 函数 可 以 取得 相同 的 结果 。 必要 的 情况 下 ， 可 以 
为 每 个 神经 元 节点 引入 增益 如 ， 此 时 激活 函数 记 做 y=f;( Aix;)。 另 一 种 重要 的 神经 
元 节点 类 型 为 “ 归 一 化 指数 节点 "， 也 称 做 softmax 函 数 ， 常 用 于 计算 具有 n 个 可 能 
输出 的 事件 的 发 生 概率 ， 例 如 个 类 别 的 分 类 问题 。 下 标 7 从 1 到 n， 代 表 n 个 输出 节 
点 。 计 算出 n 个 成 员 的 概率 ,x 表示 第 i 个 输出 闻 点 的 输入 总 量 ， 则 每 个 输出 节点 
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的 最 终 输出 量 y, 为 


-x 
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— 
二- 


显然 ， 其 中 y=1。 当 n=2 时 ， 归 一 化 指数 函数 可 通过 简单 变换 表示 成 
logistic KUER: 





Y= (5.5) 


e* 1 


gnre Lee) (5.6) 


ue 


值得 注意 的 是 ， 任 何 一 种 概率 分 布 P=(p;) (i sisn) 都 对 应 一 组 变量 
元 【1 sj 生产 )， 并 可 用 以 下 归 一 化 指数 函数 的 形式 表示 : 


e 


P= 





= (5.7) 
tf ‘ 
HAmen, Sxzlogpt+K Cixi, n) (MRVE, Mejntix=-a )， 其 中 K 取 某 
一 正常 数 ， 故 p 的 表示 形式 不 惟一 。 而 m<n 时 ， 该 式 无 确定 解 ， 除 非 假 设 p, 至 多 可 
区 mm 个 不 同 值 。 
另 一 类 广泛 使 用 的 激活 隶 数 为 径 向 基 函 数 ( radial basis function, RBF), 其 
中 关 - 般 为 钟 型 晒 数 【如 高 斯 函数 )。 每 个 RBF 节 点 :有 一 个 “参考 ”输入 x , 埋 
输入 与 “参考 ”输入 的 距离 4( x, x.) 的 函数 ， 函 数 中 的 距离 由 节点 输出 y=f d 
Ca}, a 计算 。 在 空间 问题 中 ，q 一 般 是 欧 几 里 德 距离 。 
显然 ， 建 模 者 应 该 能 够 根据 待 解决 问题 的 需要 ， 设 计 选 择 合适 的 节点 类 型 、 
连接 和 激活 函数 。 所 以 在 读者 印象 里 ， 神 经 网 络 的 概念 往往 是 模 楼 商 可 的 ， 而 实 
际 上 也 确实 如 此 。 按 照 我 们 给 出 的 宽松 定义 ， 将 多 项 式 认 做 一 种 神经 网 络 也 未 党 
不 可 。 当 然 ， 也 可 以 进 - ` 步 限制 神经 阅 络 的 定义 范畴 。 传 统 意 义 上 的 神经 网 络 特 
指 输入 满足 ( 5.1 )， 激 活 函 数 为 阔 值 函数 或 sigmoijdal 函 数 的 网 络 结构 。 实 际 上 ， 
具体 的 网 络 形式 是 随 着 具体 的 问题 而 定 的 。 今 天 使 用 的 不 同类 型 网 络 模 型 的 术语 ， 
部 分 地 是 历史 偶然 的 产物 。 实 际 上 神经 网 络 模型 是 一 族 可 能 的 参数 化 模型 ， 是 一 
个 连续 序列 ， 尚 没有 明确 的 范围 限定 。 设 计 网 络 结构 和 进行 贝 叶 斯 推断 时 ， 建 模 
者 的 自由 度 很 大 。 
在 神经 网 络 的 实际 应 用 中 ,往往 需要 对 间 归 和 分 类 识别 这 两 类 问题 加 以 区 分 。 
在 回归 问题 中 ， 其 目的 是 扣 近 或 拟 合 给 定 曲面 ; 而 在 分 类 识别 问题 中 ， 其 日 的 是 
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将 给 定 输入 划分 人 数量 较 少 的 几 类 中 。 这 种 区 分 虽然 有 用 ， 但 往往 较为 随意 ， 比 
如 ， 两 类 别 的 分 类 问题 可 以 看 做 是 对 一 个 非 连续 的 二 值 函 数 ( 有 界 的 ) 的 拟 合 。 
第 6 章 中 提 及 的 遗传 密码 学 习 问 题 就 是 这 两 类 问题 重合 的 一 个 实例 。 由 于 序列 数 
据 的 离散 特性 和 存在 识别 一 些 典 型 特定 模式 〔【 例如 w 螺 旋 、 折 县 类 、 剪 切 位 点 、 
外 显 子 等 ) 的 问题 ， 神 经 网 络 的 分 类 功能 过 去 在 分 子 生物 学 中 应 用 较 多 。 但 不 可 
忽视 的 是 ， 诸 如 蚊 水 性 标 度 (hydrophobicity scale ) 和 堆积 能 ( stacking energy ) 
等 连续 数据 也 是 很 重要 的 。 在 以 下 的 章节 中 ， 将 对 神经 网 络 的 回归 、 分 类 功能 做 
更 详细 的 介绍 。 
经 网 络 的 最 重要 的 特性 之 一 就 是 可 以 通过 样本 进行 学 习 。 显 然 ， 从 一 般 的 
贝 叶 斯 统计 理论 体系 的 角度 看 ， 所 研究 的 问题 无 非 是 模型 拟 合 和 参数 估计 。 需 要 
进行 园 归 和 分 类 的 数据 D 通 常 是 以 输入 一 输出 二 元 组 的 形式 出 现 的 ，D= (Dp, 
De), RPDE (dn 1;) ( 4 为 数据 输入 ，: 为 目标 )。 实 际 应 用 时 ， 数 据 通常 被 划分 
为 训练 数据 (training data) 和 校 验 数据 (validation data )。 训 练 数据 用 于 模型 拟 
合 ， 校 验 数据 用 于 模型 检验 。 校 验 数据 也 可 分 为 校 验 数据 (validation) 和 测试 数 
据 〈test data) 两 类 ， 其 中 校 验 数据 用 于 执行 提前 结束 以 避免 神经 网 络 的 过 学 习 ， 
而 测试 数据 用 于 评价 模型 的 整体 性 能 。 这 种 输入 数据 与 相应 输出 目标 值 都 已 知 的 
模型 拟 合 ， 常 被 称 为 有 监督 学 习 (supervised learning) ; 而 相应 输出 目标 值 未 知 
的 模型 拟 合 ， 则 称 为 无 监督 学 习 ( unsupervised learning) 或 自 组 织 ( self- 
organization )。 当 然 ， 这 种 人 为 的 划分 有 一 定 意义 但 不 必 作 为 教条 。 对 于 有 监督 
学 习 算 法 ,一 种 过 去 常用 的 思想 是 :从 一 组 随机 参数 开始 定义 一 个 “误差 函数 ”， 
这 个 误差 函数 是 通过 比较 网 络 的 实际 输出 和 目标 输出 的 差别 而 得 到 的 。 然 后 采用 
梯度 下 降 法 ， 修 正 优化 网 络 参数 值 ， 使 误差 函数 值 最 小 。 上 述 过 程 能 用 一 般 的 由 
叶 斯 统计 理论 ( 参考 第 2 章 ) 加 以 最 完美 地 分 析 ， 即 ， 先 建立 一 定 的 概率 模型 和 
假设 ， 然 后 进行 合适 的 贝 叶 斯 推导 。 神 经 网 络 有 监督 和 无 监督 学 习 的 许多 算法 ， 
其 实质 就 是 ML 或 MAP 估 计 。 
本 章 的 其 余部 分 将 集中 讨论 分 层 前 馈 神 经 网 络 结构 、 多 层 感 知 器 [ 输入 如 
(5.1 )， 激 活 丁 数 为 线性 / 阐 值 /sigmoidal/ 归 一 化 指数 形式 ] 及 它们 在 序列 分 析 中 的 
应 用 。 在 下 一 节 中 ， 将 详细 分 析 神 经 网 络 的 通用 函数 逼近 特性 。 尤 其 是 将 证 明 存 
在 一 个 足够 大 的 、 层 数 有 限 的 神经 网 络 ， 它 能 以 任意 精度 站 近 任 何 满足 一 定 条 件 
的 闻 数 。 在 5.3 节 中 ， 将 采用 第 2 章 中 所 述 的 理论 框架 分 析 神 经 网 络 、 先 验 分 布 和 
似 然 函数 ， 阑 述 如 何 设计 神经 网 络 结构 ， 如 何 实现 第 一 级 的 贝 叶 斯 推断 。 在 5.4 节 
中 ， 将 采用 第 4 章 所 介绍 的 理论 来 分 析 神 经 网 络 的 学 习 算法 问题 ， 从 而 导出 著名 的 
反 向 传播 学 习 算法 (backpropagation algorithms )。 神 经 网 络 的 其 他 理论 结果 超出 
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本 书 范围 ， 读 者 可 参考 所 附 文献 。 神 经 网 络 的 计算 复杂 度 问 题 和 一 般 的 机 器 学 习 
问题 见 参考 文献 [314 ] 。 参 考 文献 【373, 398, 517] 给 出 了 更 完整 的 神经 网 络 的 
贝 叶 斯 方法 ， 其 中 包括 高 级 的 贝 叶 斯 推断 方法 。 除 了 神经 网 络 ， 还 有 一 些 其 他 适 
用 于 回归 、 分 类 的 参数 化 模型 ， 如 样 条 函数 !5% 1; 、 高 斯 过 程 [5%2063%1 ( 附录 A ) 
MERMERI, 























5-2 ”通用 函数 逼近 特性 


神经 网 络 的 另 一 大 特性 就 是 能 够 以 任意 精度 逼近 任意 给 定 函 数 。 由 于 任意 布 
尔 函 数 都 可 以 由 多 个 闭 值 门 的 组 合 实现 ， 所 以 对 布尔 函数 而 言 ， 以 上 结论 显然 成 
京 。 电 布尔 函数 可 以 由 “与 门 ”和 “ 非 门 ”构成 ， 而 “与 门 ”和 “ 非 门 ”很 容易 
由 阅 值 门 实现 。 在 一 般 的 回归 问题 中 ， 只 要 隐 层 的 节点 是 够 多 ， 仔 何 实 函 数 FUx) 
都 可 以 由 一 个 输入 层 为 *， 隐 层 为 sigmoidal 节 点 ， 输 出 层 为 线性 节点 的 三 层 神 经 
网 络 做 任意 精度 的 逼近 。 这 一 结论 的 多 种 数学 推导 和 证 明 方 法 匈 参考 文献 [ 264， 
265 ] 等 。 

这 里 仪 针对 一 种 特殊 情况 给 出 简单 的 构造 性 证 明 ， 用 以 阐述 其 中 的 某 些 基本 
思想 ， 而 该 证 明 能 很 容易 地 加 以 推广 。 为 了 简单 起 见 ， 仅 考虑 连续 函数 y=F (x), 
其 中 r 和 ? 仅 为 一 维 的 情况 。 不 失 普 遍 人 性 ， 假 设 x 的 取 值 范围 为 [0, 1 ] ,计算 任意 
给 定 x 时 # (x) 的 值 ， 并 满足 精度 e。 由 于 f 在 紧 集 [ 0, 1 ] 上 是 连续 的 ， 所 以 也 
是 一 致 连续 的 ， 且 存在 整数 x， 使 得 下 式 成 立 ; 





bro -afe+ = Hm)- faee (5.8) 


因而 存在 一 个 函数 8 可 以 充分 逼近 F， 其 中 g(x ) 满足 : g(0) =f(0), g(x) = 
Fl kin) (x 的 取 值 范围 为 (《k-1) In, Kin ] ,k=1,…, n) 函数 8 可 由 以 下 类 型 的 神经 
网 络 实现 : 仅 有 1 个 输入 节点 r+， 隐 层 为 a+t1 个 羡 值 门 型 节点 量 每 个 隐 层 节点 各 与 
输入 节点 相连 ,输出 节点 也 仅 为 1 个 ， 并 与 每 个 隐 层 节点 连接 。 隐 层 节 点 编号 为 0 
至 #， 输 出 为 线性 激活 函数 ， 以 覆盖 y 的 取 值 范围 ( 如 图 5-2 所 示 )。 输 入 节点 到 所 
有 隐 层 节点 的 权重 都 设 为 1， 第 个 隐 层 节点 的 姜 值 ( 偏 移 ) 为 (x-1) /n。 此 时 ， 
任 取 xe (Ck-1) fn, Kn ] ， 除 前 kt1 个 隐 层 节点 的 输出 为 1 外 ， 其 余 隐 层 节点 的 输 
出 毕 为 0。 这 样 ， 输 入 值 直接 由 激活 的 隐 层 节点 数 编码 。 从 第 k 个 隐 层 节点 到 输出 
































国 本 节 中 所 指 节点 一 般 为 闭 值 /sigmoidal 节 点 ， 显 然 结论 对 于 包含 多 项 式 节点 的 神经 网 络 同样 成 立 。 
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节点 的 连接 权重 为 f= (kin) -A[(k-1) In] , SPAS ES (0). 输出 节点 的 激 
活 丽 数 类 型 为 零 偏 倚 的 恒 等 函 数 、 因 此 若 =0， 则 gC x) =0。 对 于 任何 k=1, 2,…, n 
Erel C1) in, Win], Wg Cx) =f (0) + Df Gin) FEG) ln] =f Gin do 

利用 上 面 的 结论 ， 很 容易 做 出 如 下 推广 : 

1. 多 维 输入 、 输 出 

2. 激活 函数 或 其 他 类 型 的 激活 通 数 ; 

3. 输入 可 在 任意 紧 集 区 间 上 取 值 ; 

4. 孜 数 了 可 以 具有 有 限 数 量 的 不 连续 点 ， 共 至 更 多 。 

神经 网 络 可 以 逼近 任意 函数 这 个 结论 虽然 有 用 ， 但 上 述 证 明 并 未 给 出 一 个 非 
常 实用 的 网 络 结构 。 实 际 上 ， 可 以 证 明 对 于 基本 的 随机 的 六 数 ， 逼 近 孙 数 的 简单 
网 络 结构 并 不 存在 。 仅 对 一 类 特定 的 “结构 化 ”的 耳 数 ， 才 存在 简单 的 亲近 网 络 ， 
而 此 时 通用 浅 数 逼近 理论 所 构造 的 网 络 结构 远 非 最 佳 。 可 能 存在 更 优 的 网 络 结 构 ， 
它 更 合理 地 分 配 隐 节点 ， 并 可 能 具有 不 止 -~ 个 隐 层 。 正 是 这 些 因素 ， 才 使 神经 网 
络 的 学 习 算法 尤为 重要 。 





















































ga) 
线性 输出 节点 (4a) O) 






RD-f [ilya] 


图 5-2 本 数 的 通用 逼近 网 络 结构 


OGY (x ) ROBIE Ms (x) 由 以 下 神经 网 络 实现 带 有 1 个 输 和 节点，n+1 个 阔 值 门 型 隐 层 节点 和 ] 个 
线性 的 输出 节点 。 


5.3 先 验 分 布 和 似 然 度 


下 面 将 应 用 第 2 章 中 所 讲述 的 理论 。 特 别 吕 ， 将 示范 如 何在 理论 的 指导 下 选 
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择 目标 函数 和 输 击 层 季 点 的 激活 吗 数 。 在 本 节 中 ， 假 设 数 据 由 一 组 互相 独立 的 输 
入 一 输出 二 元 组 Dj= Cd, n) 组 成 。 由 于 噪声 的 影响 ， 对 于 给 定 输入 d,， 可 以 观测 
到 不 同 的 输出 r*。 附加 于 输入 d 的 噪声 可 以 通过 建 模 描 述 ， 但 这 里 暂 不 耶 考 虑 。 而 
神经 网 络 本 身 的 运算 可 看 做 是 确定 的 。 从 而 : 


P((d,, t.w} = P(d,|w)P (ald, w) = P(d P(t, ld, w (5.9) 


























后 一 个 等 式 成 立 的 条 件 是 : 通常 假设 输入 4 与 参数 w 独 立 。 因 此 ， 对 于 参数 为 w 的 
给 定 结构 的 神经 网 络 ， 根 据 (2.9) 可 推出 下 式 : 


K 
-1ogP(w|D}= -$ og (64, w)—¥ log P(d,) - log P(w) + log P(D) (5.10) 
i=] i=l 
推导 中 使 用 了 P(( ad; i) bv) =P(d) P(tld,w) 的 结论 ， 并 考虑 了 不 同 数据 点 的 独 
立 性 。 依 照 第 一 级 的 员 叶 斯 推断 (MAP 规则 )， 我 们 希望 等 式 左边 最 小 。 而 
PCD), P(d,) 与 w 无 关 ， 所 以 可 暂 不 考虑 ， 从 而 集中 考虑 似 然 项 和 先 验 项 的 大 小 。 
为 了 计算 似 然 度 ， 需 要 区 分 问题 的 类 别 ( 如 回归 、 分 类 )， 并 进一步 给 出 确 
定 的 概率 模 刑 。 其 具体 步 又 见 参 考 文献 [ 455 ] 。 其 基本 思想 是 ; 对 于 给 定 输入 d.， 
网 络 可 以 产生 输出 y( d,)。 当 从 统计 意义 上 确定 了 如 何 由 网 络 输出 y=y ( d;) 获得 
观测 数据 5=r (ad) 时 ， 整 个 模型 基本 上 就 确定 了 。 若 输出 层 有 多 个 节点 ， 记 yj 为 
第 ;个 样本 在 第 /个 节点 上 的 输出 。 为 了 注释 方便 ， 下 面 将 去 掉 输 入 的 下 标 。 如 此 
可 以 获得 针对 - 般 化 的 输入 一 输出 二 元 数据 组 { d, 1) 的 在 线 计 算 等 式 。 而 离线 计 
算 等 式 可 以 很 容易 地 依照 (5.10) 和 将 输入 相 加 获得 。 


5.3.1 FMD 


如 果 不 考 虑 其 他 附加 信息 ， 最 自然 并 最 广泛 使 用 的 神经 网 络 参 数 的 先 验 分 布 
遵循 零 均 值 的 高 斯 分 布 。 连 接 权 重 、 偏 移 和 不 同 层 的 节点 可 选择 不 同 的 超 参 数 
( 如 高 斯 分 布 的 标准 差 )。 若 权重 w 取 值 满足 标准 差 为 a 的 高 斯 先 验 分 布 ， 则 对 应 负 
对 数 后 验 概率 相关 计算 项 的 值 为 一 常数 : w2?/202。 这 一 常数 也 可 以 看 做 是 一 个 正 
则 因子 ， 用 以 乱 镜 常常 导致 过 拟 合 的 大 权重 值 。 在 权重 的 梯度 下 降 学 习 算 法 中 ， 
权重 w 的 更 新 方程 中 就 包含 一 项 因子 -w/o?。 这 一 因子 也 称 为 权重 衰减 因子 
( weight decay )。 权 重 共享 是 男 一 种 特殊 的 先 答 分 布 ， 此 时 ， 给 定 层 中 的 不 同 节 
点 组 其 有 相间 的 输入 连接 权重 。 在 梯度 下 降 学 习 中 ， 可 以 很 容易 地 实现 权重 共享 。 
权重 共享 在 一 类 具有 平移 不 变性 特征 ， 需 要 完成 一 些 相同 操作 的 问题 ( 比如 在 输 
入 的 不 同位 置 区 域 中 提取 模式 特征 ) 中 是 很 有 用 的 。 这 些 共享 的 权重 实质 上 完成 
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了 卷 积 核 的 功能 ， 所 以 这 类 网 络 被 称 为 卷 积 网 络 ( convolutional network )。 

有 关 神 经 网 络 参 数 和 超 参 数 的 高 斯 分 布 或 其 他 形式 的 先 验 分 布 ， 见 参考 文 
献 [ 373,398,517 ] 相关 内 容 。 参 考 文献 [373 ] 中 ， 采 用 拉 普 拉 斯 估计 方法 决定 
最 优 超 参 数 。 在 参考 文献 [ 398 ] 中 ， 先 验 分 布 的 积分 和 MLP 中 的 贝 叶 斯 学 习 过 
程 采 用 了 蒙特 卡 罗 方 法 。 贝 时 斯 学 习 的 优点 是 无 需 校 验 集 (validation set) 即 可 自 
动 确 定 正 则 因子 ， 避 免 大 规模 神经 网 络 中 出 现 过 拟 合 向 题 ， 减 少 预测 的 不 确定 性 。 
参考 文献 [398 ] 中 指出 ， 在 隐 层 节点 数目 趋 于 无 穷 时 ， 采 用 高 斯 先 验 分 布 的 单 隐 
层 神经 网 络 在 输入 一 输出 的 函数 空间 土 定义 了 一 个 高 斯 过 程 。 因 此 在 一 些 文献 中 
不 用 神经 网 络 实现 ， 而 直接 使 用 高 斯 过 程 。' ”2%61 虽然 高 斯 过 程 为 解决 回归 和 
分 类 问题 提供 了 灵活 的 工具 ， 但 是 该 方法 对 计算 能 力 要 求 极 高 ， 在 夫 有 技术 下 ， 
只 能 将 之 应 用 于 网 络 规模 适中 的 问题 。 


5.3.2 ”高 斯 回归 


在 回归 问题 中 ，y 的 取 值 范围 是 任意 的 ， 所 以 在 输出 层 中 采用 的 最 简单 的 激 
活 函 数 是 线性 《实际 上 是 恒 等 ) 函数 。 很 自然 ， 需 要 假设 一 个 高 斯 概率 模型 ， 使 
P Cild, w) =PCtly(d) , w) =P Uy) 是 高 斯 的 ， 均 值 向 量 为 =y(d )。 进 一 步 候 
设 协 方差 矩阵 是 对 角 的 ， 有 x 个 输出 节点 ， 以 下 标 ; 表 示 ， 从 而 


Tī! (6-») 
rem) -II sof | (5.11) 
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标准 差 是 这 个 统计 模型 中 的 附加 参数 。 苦 进一步 假设 =o 为 常数 ， 则 当前 输入 
的 负 对 数 似 然 邹 数 变 为 


2 
= (5.12) 


可 以 看 出 后 两 项 与 w 无 关 ， 所 以 在 优化 参数 w 的 过 程 中 可 以 忽略 。 式 中 的 第 一 项 是 
常见 的 最 小 均 方 (LMS ) 误差， 在 一 些 时 候 ， 可 不 必 依赖 统计 模型 而 直接 用 于 很 
多 实际 应 用 。 负 对 数 似 然 画 数 上 对 输出 y 的 偏 导 数 是 : 
EE 
ay; B Ox; ~ o; ar 
第 一 个 等 式 的 导出 依赖 于 激活 函数 是 恒 等 函 数 的 假设 。 
总 之 ， 在 带 高 斯 噪声 的 回归 问题 中 ,输出 激活 函数 应 该 是 线性 的 ， 似 然 误 差 


(5.13) 
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函数 是 LMS 误 差 胃 数 (针对 不 同 的 /， 归 一 化 因子 oj 可 能 不 同 )，E 对 输出 层 的 输 
人 总 量 的 偏 导数 具有 如 (5-y) I- (1-9, ) /0 的 简单 表示 形式 。 


5.3.3 ”两 类 别 分 类 


考虑 仅 具 有 两 类 别 4 和 万 的 分 类 问题 。 给 定 输入 4， 目 标 输出 是 0 或 1。 最 自然 
的 概率 模型 是 二 项 式 模型 (binomial model )， 则 神经 网 络 的 单一 输出 表示 输入 为 
类 别 4 和 的 概率 ， 该 概率 和 对 应 于 指标 函数 的 期 望 。 可 以 使 用 sigmoidal 激 活 函 
数 进行 计算 。 这 样 有 : 

















y=y(d) = P(d € A) = P(tld, w) = y'(1-y) (5.14) 
和 
E =—logP(#\d, w) = -t log y— (1-1) log(1— y) (5.15) 
REMARKA AR TT A, IF AL: 
of ___tvy (5.16) 
dy y(1-y) 
特别 地 ， 如 果 输 出 激活 函数 是 logistic 函 数 ， 则 
中 二 一 信 一 
z” (r-y) (5.17) 














而 ， 在 此 类 别 分 类 问题 中 ， 输 出 激活 函数 是 logistic 函 数 ; 似 然 误 差 函数 是 
预测 值 分 布 和 目标 值 分 布 间 的 相对 焙 。 对 应 每 一 样本 ， 正 对 输出 层 的 输入 总 量 的 
偏 导数 有 具有-( :-y ) 的 简单 表示 形式 。 


5.3.4 ”多 类 别 分 类 


更 一 般 地 ， 考 虑 带 有 wn 个 可 能 类 别 41,…, 4 的 分 类 问题 。 给 定 输入 d， 目 标 输 
出 是 有 一 个 元 素 为 1， 其 余 元 素 都 为 0 的 za 维 向 量 形式 。 最 简单 的 概率 模型 是 多 项 
式 模型 (multinomial model )。 对 应 的 神经 网 络 具 有 n 个 输出 节点 ， 每 个 节点 的 输 
出 给 出 了 输入 向 量 对 应 于 该 类 别 的 概率 。 这 样 : 

















Pd w)= [7 (5.18) 
jel 





通常 地 ， 其 中 sd),yj=y(d)。 对 于 每 一 个 样本 有 : 
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E=~logP(ild, w)= -$s logy; (5.19) 


WE SE AIA EAR, E 


Æ t 


ay, H} 


特别 地 ， 如 果 输 出 层 节 点 是 归 一 化 指数 形式 ， 


dE 二 一 | 
a 
其 中 x 是 到 第 ;个 归 一 化 指数 函数 的 总 输入 量 。 





(5.20) 


则 对 应 每 一 输入 d;:， 有 


-y;) (5.21) 


由 此 看 来 ,在 多 类 别 分 类 问题 中 ,输出 层 的 激活 函数 应 该 是 归 一 化 指数 函数 。 
似 然 误 差 本 数 是 被 预测 值 分 布 和 目标 值 分 布 间 的 相对 灶 。 对 应 每 一 样本 和 每 一 类 











别 ， 亚 对 到 输出 层 的 输入 总 量 的 偏 导数 具有 - 
5.3.5 一般 化 的 指数 族 类 型 





Gy) 的 简单 表示 形式 。 


事实 上 ， 当 似 然 函 数 属于 指数 族 分 布 类 型 时 ， 得 到 的 结果 与 前 面 所 得 到 的 结 


果 类 似 ( 见 附录 A 和 参考 文献 [ 384,94 ] )。 指 数 族 分 布 包含 很 多 种 最 常见 的 分 布 


类 型 ， 如 高 斯 、 伽 玛 、 二 项 、 多 项 、 指 数 、 


贝塔 、 泊 松 、 负 二 项 分 布 等 。 针 对 每 


一 种 分 布 ， 可 以 选择 合适 的 输出 激活 函数 y=f (x )， 使 得 下 对 第 /个 输出 节点 的 输入 


总 量 的 偏 导数 3E /3x) 具有 简单 表示 形式 。 
(yy)， 即 目标 输出 5 与 实际 输出 间 的 差别 。 


对 应 每 一 个 样本 ， 该 偏 导数 正比 于 





可 以 看 到 ,统计 理论 允许 为 输出 层 构造 合适 的 激活 函数 ， 并 构造 合适 的 误差 
函数 来 衡量 网 络 的 性 能 。 然 而 隐 屋 的 设计 依赖 于 具体 问题 没有 一 般 的 模式 可 循 。 




















严格 遵循 这 一 理论 进行 神经 网 络 的 设计 开发 








为 上 述 的 理论 体系 在 近 儿 年 中 才 和 逐渐 形成 ， 


所 以 并 非 所 有 的 神经 网 络 设计 者 都 
(包括 以 下 章节 所 提 及 的 许多 例子 )。 


很 多 研究 者 甚至 在 两 类 别 分 类 问题 中 依然 使 用 LMS 误 差 函 数 ， 虽 然 理 论 上 相对 入 


误差 函数 更 为 合适 。 
“如 果 所 使 用 的 理论 不 合适 ， 如 何 得 出 





习 的 概率 为 p=0.5。 对 于 在 [0, 1 ] 中 取 值 的 
相对 炉 为 -0.5logx-0.5log( 1-x)。 图 5-3 中 : 








绘 出 了 这 两 个 函数 的 曲线 。 这 两 条 曲 





合理 的 结果 呢 ? ”上 述 的 简单 例子 给 
出 了 这 一 问题 的 答案 。 为 了 更 好 地 说 明 问 题 ， 


假设 在 两 类 别 分 类 问题 中 ,希望 学 
每 个 +，LMS 误 差 为 (0.5-x?， 所 以 
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5.4 





二 次 函数 ZLA 





020 
3.0 


2.0 


0.10 


1.0 














0.0 04 O08 0.0 04 0.8 


图 5-3 —HO RGM REA ER 
函数 对 应 的 目标 值 为 0.5。 注 意 两 条 曲线 值 域 的 不 同 : AEAF. 





线 都 是 下 凸 的， 在 p=0.5 处 达到 最 小 值 。 主 要 的 不 同 点 在 于 动态 区 域 范围 : 与 相对 
粹 不 同 ，LMS 误 差 是 有 界 的 。 当 许多 样本 误差 到 加 的 时 候 或 在 样本 学 习 过 程 中 ， 
动态 区 域 的 差别 将 会 显得 较为 重要 。 




















反 向 传播 学 习 算 法 


在 我 们 将 要 讨论 的 大 多 数 实际 应用 中 ， 神 经 网 络 参 数 的 MAP 或 ML 估计 是 采 
用 梯度 下 降 学 习 算法 实现 的 ( 见 参考 文献 [ 26 ] )。 和 梯度 的 计算 可 以 顺 次 依照 神 
经 网 络 的 拓扑 结构 完成 。 由 输出 层 回 馈 至 输入 层 ， 误 差 信 号 依照 神经 网 络 连接 反 
向 传播 ， 依 次 更 新 权重 。 更 精确 地 ， 在 神经 网 络 参数 的 各 种 在 线 训 练 过 程 中 ， 参 
数 wy 满足 








E_E Oy, OE 
Buy By Bw Bye CD (5.22) 











此 ， 梯 度 下 降 学 习 方程 为 = 项 之 积 ， 即 





aE 
Aw, = aw, = NEY; (5.23) 





其 中 为 学 习 率 ，y, 为 神经 元 的 输出 ， ;= (OE /8y)f (x) 称 做 反 向 传播 误差 。 反 
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向 传播 误差 可 由 下 式 递归 计 算得 到 : 


OE - OE rr w 
On ay ay, Gade, (5.24) 
反 向 传播 算法 的 特点 是 误差 从 子 节 点 向 父 节 点 传播 。 反 向 传播 算法 和 EM 、 
模拟 退火 算法 一 样 ， 是 在 对 MLP 结 构 进行 MAP 舍 计 中 被 广泛 应 用 的 算法 。 这 些 算 
法 应 用 在 网 络 结构 学 习 方面 比较 理想 ,但 随 着 问题 维 数 的 增 大 ， 它 们 越 来 越 低 
效 。 
现存 可 以 回顾 神经 网 络 在 分 子 生物 学 方面 的 重要 应 用 了 。 相 关 主 题 的 学习 见 
和 参考 文献 [ 432,571,572] 。 
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神经 网 络 很 员 就 在 生物 序列 分 析 领 域 中 获得 了 应 用 。1982 年 ， 以 氨基 酸 序列 


作为 输入 向 量 的 感知 器 已 用 于 核 精 体 结合 





位 点 的 预测 。!501 斯 托 墨 (Stormo ) 和 


他 的 同事 们 发 现 ， 在 寻找 大 肠 杆 菌 转录 起 始 位 点 方面 ， 感 知 器 算法 优 于 以 往 那些 











基于 规则 推断 的 算法 。! 2 不 含 隐 节 点 的 感知 器 具有 推广 能 力 ， 可 以 在 序列 中 找 


到 训练 集 (training set) PAH AMR RE 








BAHL 





对 很 多 序列 识别 问题 而 言 ， 线 性 的 


的 反 血 传播 训练 算法 于 1986 年 开始 广泛 应 用 0461 ， 
表 关于 蛋白 质 二 级 结构 预测 的 论文 E, H 








络 结构 并 不 十 分 有 效 。 直 到 多 层 感知 器 
尤其 是 1988 年 钱 和 塞 诺 斯 基 发 
经 网 络 才 得 到 足够 的 重视 和 真正 广 





泛 的 应 用 。 这 篇 以 及 随后 的 其 他 几 篇 论文 ”中 使 用 的 神经 网 络 ， 都 是 以 Net- 
Talk 多 层 感 知 器 结构 为 基础 的 ,“%*1 NetTalk 可 以 由 输入 给 神经 网 络 的 英文 文章 中 


的 字母 米 预测 相关 音素 ， 





以 满足 语音 合成 和 文章 机 器 阅读 的 需要 。 只 需要 把 输 人 





的 字母 改 成 相应 的 氨基 酸 或 核 苷 酸 字符 ， 


就 可 以 立即 将 这 种 方法 应 用 于 序列 分 析 


领域 。 同 样 ， 音 素 的 编码 可 以 很 容易 地 转换 成 结构 类 别 ， 例 如 : 蛋白 质 的 二 级 结 











构 类 别 ORE, MERE 
后 修饰 的 残 基 等 )。 





) 或 不 同 的 功能 类 别 ( 如 结合 位 点 、 剪 切 位 点 或 转录 











在 本 章 中 ， 将 首先 对 应 用 于 蛋白 质 和 核 苷 酸 分 析 的 一 些 早期 工作 做 个 综述 。 





然后 详细 阐述 当前 研究 中 的 一 些 例子 ， 这 些 例 











网 络 结构 上 具有 优势 ， 尤 其 是 能 够 将 不 


司 








预 济 效果。 本 章 的 目的 不 在 于 宫 括 神经 








综述 见 参考 文献 [432,61,77,320,571,572 





子 所 用 的 方法 在 训练 法 则 或 在 神经 
的 神经 网 络 结合 在 一 起 而 产生 出 更 好 的 
络 的 整个 应 用 范围 ， 其 他 的 最 新 进展 的 


o 
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6.1 序列 编码 和 输出 表示 





在 将 神经 网 络 应 用 于 分 子 生物 学 之 前 ， 必 须 首先 讨论 一 下 序列 输入 编码 这 一 
重 监 的 问题 。 无 论 采 用 什么 样 的 预测 方法 ， 输 入 量 的 编 公 表 示 形 式 十 分 重要 。 如 
打 编 码 表示 形式 选择 得 当 ， 能 够 揭示 特定 问题 的 本 质 ， 那 么 问题 或 多 或 少 可 以 得 
到 解决 ， 或 至 少 可 采用 简单 的 线性 方法 得 以 解决 。 在 MLP 中 ， 最 后 一 个 隐 层 到 输 
出 层 的 输出 所 传递 的 输入 信息 应 该 以 线性 可 分 的 形式 存在 。 很 明显 ， 如 果 输 入 的 
编码 表示 形式 没有 增加 非 线性 程度 ， 则 问题 容易 处 理 得 多 。 

有 人 也 许 认为 使 用 一 套 与 所 研究 问题 可 能 相关 的 物理 化 学 特性 来 对 序列 进行 
“实际 的 ”编码 ， 要 比 使 用 由 信息 理论 规则 提炼 的 抽象 编码 形式 更 为 有 效 。! ?1 
然而 同 大 多 数 预测 方法 的 信息 约 简 特性 一 致 〔 见 1.4 节 )， 由 于 神经 网 络 在 输入 特 
征 到 达 输出 层 前 会 滤 掉 大 部 分 额外 信息 ， 所 以 一 些 额 外 信息 的 引入 并 不 一 定 会 提 
高 算法 的 性 能 。 
在 MLP 的 训练 过 程 中 ， 神 经 网 络 使 用 赵 平 面 ( hyperplane ) 将 输入 空间 划分 
为 不 同 的 决策 区 域 。 由 于 序列 是 以 数字 量化 的 形式 编码 的 ， 所 以 在 数字 量 表示 的 
输入 序列 所 定义 的 空间 上 ， 输 入 序列 的 编码 表示 形式 对 隐 层 所 决定 的 超 平面 的 位 
置 有 很 大 的 影响 。 

在 许多 序列 分 析 中 ， 输 入 常 取 长 度 为 W 的 窗 ， 这 个 窗 材 盖 了 一 个 或 几 个 相关 
序列 片断 。 一 般 来 说 ， 窗 的 位 置 是 对 称 的 ， 以 保证 上 游 和 下 游 序列 具有 相同 的 长 
度 。 但 在 个 别 案例 中 ， 使 用 不 对 称 窗 要 比 使 用 对 称 窗 的 效果 好 。 在 识别 信号 肽 前 
切 位 点 (第 6.4 节 ) 和 mRNA 前 体 中 内 含 子 剪接 位 点 (第 6.5.2 节 ) 时 ， 使 用 不 对 称 
窗 就 比 使 用 对 称 窗 的 效果 好 得 多 。 这 两 种 类 型 的 序列 〈N 端 的 蛋白 质 分 选 信号 和 
非 编码 的 内 含 子 DNA 序 列 ) 最 终 是 要 被 切 去 的 ， 因 此 尽量 保留 序列 内 部 关于 蛋白 
质 合成 过 程 的 特征 信息 是 有 意义 的 ， 这 样 可 以 使 最 后 得 到 的 成 熟 蛋白 所 受 约束 最 
少 。 一 些 窗 口 带 有 空 阶 ， 其 中 的 序列 并 不 紧密 相连 ,已 经 专门 用 于 识别 启动 子 、 
DNA 转 录 起 始 位 点 、 蛋 白质 p 折 县 伴侣 。'***] 这 类 窗口 还 可 以 基于 残 基 的 上 下 
游 序 列 ， 预 测 两 个 氨基 酸 的 距离 约束 。[3*1 

窗 W 的 每 个 位 置 上 ， 有 |A| 种 不 同 的 可 能 单 体 出 现 。 最 常用 的 编码 表示 形式 称 
为 正 交 编码 (orthogonal) ( 为 区 别 于 分 布 式 编码 ， 也 可 称 为 局 域 编码 )， 此 时 字 
符 X1, Xz, … 用 正 交 向 量 1, 0…, 0)，( 0, 1…, 0 ) ,…… 编 码 。 这 种 编码 表示 形式 
的 优点 在 于 不 引入 任何 单 体 间 的 代数 相关 。 不 完整 的 氨基 酸 序列 窗 中 所 出 现 的 N、 
C 端 位 置 常 使 用 专门 的 特征 字符 进行 编码 。 有 时 ， 这 个 特征 字符 也 可 用 于 序列 中 
未 知 类 型 单 体 的 编码 ， 当 然 未 知 类 型 单 体 也 可 以 采用 全 为 0 的 字符 串 的 形式 编码 ， 



















































































这 样 它 们 对 网 络 的 输入 层 无 任何 


可 影响 。 
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为 它 需 要 输入 层 的 规模 为 |A| x 











这 种 稀疏 编码 方式 明显 有 浪费 资源 的 缺点 ， 


DAR 


Wo IAS APG EL 


的 输入 层 取 值 连 续 ， 则 一 个 节点 就 能 编码 所 有 可 能 的 字符 。 在 预测 
素 。 如 果 所 有 的 氨基 酸 编 码 取 值 都 在 


压缩 编码 方式 势必 会 大 大 增加 


(0, 1] 区 间 中 ， 无 论 以 什么 样 的 顺序 将 序列 元 素 映射 到 该 段 区 间 
的 许多 序列 元 素 间 的 数学 相关 性 六 
同 的 编码 方案 必然 会 对 输 人 窗 所 处 空间 的 复杂 度 、 神 
和 学 习 的 难 易 程度 产生 影响 ， 建 模 者 通常 要 在 这 些 方案 中 进行 折 
ph， 正 交 编码 成 为 效果 最 佳 的 编码 方式 。 面 对 





BR, K 


域 大 部 分 最 好 的 工作 上 











非 线 性 的 











f 无 任何 








的 编码 序列 输入 ， 无 论 是 否 采 
等 于 隐 层 节点 数 的 空间 中 的 点 


了 正 交 编 码 ， 
然后 进一步 将 该 





特性 ， 输 人 层 的 输入 向 量 包 含 


仅 一 个 节点 的 输出 空间 ， 从 而 过 滤 掉 
SKE HBS 








WTR. 
信息 








又 不 紧密 ， 则 势必 会 增加 神经 














的 数量 ， 以 保证 能 够 别 除 这 些 额外 信息 , 半 
他 更 好 的 解决 办 法 ， 所 以 在 这 


络 识 别 分 类 的 
EM 
种 情况 下 ， 使 用 





H 


J 生 物 学 相关 意义 。 


要 用 logslAI 个 二 值 节 点 编码 。 进 一 步 说 ， 如 果 MLP 


问题 中 ， 这 类 


内 ， 这 样 产生 


经 网 络 的 结构 
。 在 目前 该 领 
一 个 较为 复杂 
经 网 络 会 将 输入 向 量 映射 为 维 数 
点 映射 到 具有 更 少 节点 ， 通 常 仅 
息 。 如 果 相 对 于 残 基 的 物理 化 学 
， 而 这 些 信 息 与 目标 输出 的 关联 
度 。 这 种 情况 下 ， 最 好 增加 隐 和 县 
提取 相应 的 关联 特征 。 由 于 缺少 


h 





正 交 编 码 效果 会 更 好 。 


如 果 选 择 采用 实数 量化 的 残 基 琉 水 性 、 电 荷 数 、 体 积 等 指标 进行 编码 ， 必 须 





注意 其 可 能 对 所 定义 的 输入 空 


进行 编码 ， 要 比 直接 将 输入 残 基 
一 般 需 要 对 窗口 中 出 现 的 特定 词 
个 窗口 的 平均 朴 水 性 等 指标 。 另 一 种 可 
式 ， 这 将 在 下 面 的 一 个 例子 中 使 用 。 另 外 一 个 例 
编码 (binary word encoding ) 方式 提高 了 预测 的 
用 由 模拟 退火 算法 产生 的 优化 编码 ， 


中 左右 
构造 自己 的 编码 天 
白质 二 级 结构 预测 中 ， 二 元 词 纪 
性 能 。 (313,548,177 在 这 个 例子 中 





A 





h 





间 


， 可 以 进一步 利 


产生 的 不 利 影响 
编码 的 效果 要 好 : 
做 词 频 统 计 ， 计 











得 多 。 对 原始 序列 


。 将 原始 序列 片断 经 过 预 处 理 后 
进行 预 处 理 时 ， 
NR BRR 
上 神经 网 络 学 习 


算 整 个 窗口 或 分 别 
能 的 有 趣 方 式 是 











子 说 明了 在 蛋 


来 推测 和 挖 气 与 二 级 结构 形成 相关 的 物理 化 学 特性 。 





降低 预测 的 





FE 线性 程度 的 一 种 重要 的 策略 ， 就 是 将 基于 单 体 的 编码 形式 转变 





成 基于 二 元 组 或 三 元 组 的 编码 


和 64 个 字符 表示 。 在 大 景 的 生物 识别 问题 中 ， 存 在 大 量 二 元 或 三 元 关联 ， 
用 二 元 组 或 三 元 组 的 编码 方式 所 # 


Bt. MRR 





ir AB E EUNA 

















而 言 ， 二 元 组 和 三 元 组 对 应 于 16 
此 使 
大 于 相应 输入 空间 维 数 增 大 所 带 





来 的 负 效 果 。 在 DNA 中 ， 碱 基 对 堆积 ( base pair stacking ) 对 螺旋 稳定 性 的 热力 
学 贡献 最 大 《超过 了 碱 基 互 补 的 贡献 ) 例如 ， 在 RNA-RNA 相 互 作用 识别 中 ， 大 
基 组 关联 在 相 邻 碱 基 对 的 堆积 能 有 其 物理 意义 。!2?1 蛋白 质 的 二 肽 分 布 与 结构 空 
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间 限 隔 、 转 录 动 力学 和 





其 他 纯 生 化 指标 也 有 很 强 的 联系 。 


如 果 DNA 和 RNA 序 列 以 二 元 组 或 三 元 组 的 形式 编码 ， 多 聚 体 重要 (multimers 
overlap) 的 情况 就 有 可 能 发 生 。 多 聚 体 的 稀 朴 编码 方式 保证 了 序列 数据 不 再 包含 
任何 先 验 关 系 。 以 重 杰 三 元 组 编 但 序列 的 优点 是 隐 层 可 以 直接 获得 每 个 核 苷 酸 的 
上 下 游 序列 信息 ， 而 不 必 再 依靠 训练 过 程 推断 。 


另 一 种 减 小 ( 或 者 在 一 些 实例 


增加 ) 预测 非 线性 程度 的 策略 是 将 一 些 单 体 


简 并 成 新 的 字符 形式 ， 从 而 获得 一 套 新 的 字符 集 ， 以 便 使 所 寻求 的 特定 模式 篆 
景 信息 形成 更 鲜明 的 对 照 。 ?5 简 并 的 宇 符 集 可 以 以 正 交 向 量 形式 编码 ， 从 而 降 


低 了 输入 空间 的 维 数 和 神经 网 络 中 届 
在 蛋白 质 家 族 的 进化 研究 中 所 建立 的 突变 速率 ， 做 出 有 意义 的 字符 简 间 
ph 列 出 了 以 前 用 到 的 一 些 简 并 编码 形式 ， 这 些 编码 形式 或 者 基于 各 种 单 体 的 初始 


H 











调整 参数 的 个 数 。 可 以 根据 物理 化 学 特性 或 
f。 表 6-1 





字符 表达 ， 或 者 基于 从 实验 数据 中 观察 到 的 单 体 结构 或 功能 信息 。 


表 6-1 


生物 分 子 单 体 的 简 并 编码 





分 组 类 别 





分 组 类 别 数 
2 HIS OE 
VS: 
按 生化 特征 
酮 类 的 


2 
2 


蛋白 质 按 结构 特性 
不 确定 | 
外 部 的 
内 部 的 
蛋白 质 按 化 学 特性 
酸性 的 
脂肪 族 | 
氨基 化 
芳香 族 | 
FHER 
BE ( 
亚 胺 的 
硫化 的 
蛋白 质 按 功 能 特性 
酸性 和 
Bikar 
RER 








R=A, G; Y=C, T 
S=C, G; W=A, T 


，K=T，G/ 氨 基 的 ，M=A，C 


# (Ala, Cys, Gly, Pro, Ser, Thr, Trp, Tyr) 
(Arg, Asn, Asp, Gln, Glu, His, Lys) 
(ile, Leu, Met, Phe, Val) 


(Asp, Glu) 

AY (Ala, Gly, Ne, Leu, Val) 
AH (Asn, Gln) 

ff) (Phe, Trp, Tyr) 

(Arg, His, Lys) 

Ser, Thr) 

(Pro) 

(Cys, Met) 


RE ( 类 按 化 学 特性 的 类 别 划 分 ) 
极 性 (Ala, Ile, Leu, Met, Phe, Pro, Trp, Val) 
带电 荷 (Asn, Cys, Gla, Gly, Ser, Thr, Tyr) 
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( 续 表 ) 





分 子 | 分 组 类 别 数 | 分 组 类 别 

蛋白 质 3 AER 

酸性 和 碱 性 〔 类 按 化 学 特性 的 类 别 划 分 ) 
不 带电 的 《所 有 其 他 氨基 酸 ) 





蛋白 质 2 BERLE: 
BRAT (Ala, Tle, Leu, Met, Phe, Pro, Trp, Val) 
亲 水 的 ( Arg, Asn, Asp, Cys, Gln, Glu, Gly, His, Lys, Ser, 





Thr, Tyr) 





这 些 简 并 编码 有 的 基于 单 体 的 初始 描述 ， 有 的 取 自 基于 结构 和 功能 信息 的 单 体 的 统计 特性 描述 。 可 以 
将 氨基 酸 随机 划分 为 使 序列 问 相似 性 最 大 的 k 滩 。 惠 深信 的 内 容 见 参考 文献 [ 306 ] 。 


最 近 的 研究 表明 ， 蛋 白质 可 以 最 大 程度 地 保持 其 折 普 结构 ， 即 使 组 成 蛋白 质 
的 氨基 酸 数目 由 传统 的 20 种 减少 到 5 种 。!*] 除了 结合 位 点 附近 的 一 些 位 置 ， 有 
15 种 不 同类 型 的 氨基 酸 可 以 由 某 些 残 基 蔡 换 ， 这 些 残 基 来 自由 数量 更 少 、 更 有 代 
表 性 的 5 种 氨基 酸 组 成 的 编码 组 (1I、K、E、A 和 G )。 如 果 按 这 一 思路 进一步 将 氨 
基 酸 减少 到 3 个 ,效果 则 不 理想 。 这 意味 着 在 早期 的 进化 中 ， 和 蛋白 质 能 够 依赖 一 
组 数量 少 得 多 的 氨基 酸 单 体 集合 获得 稳定 的 折 释 结构 。 和 需要 指出 ， 这 类 作为 代表 
的 简 并 字符 并 非 是 普 适 的 : 许多 缺少 了 半 胱 氨 酸 的 蛋白 质 根本 无 法 发 挥 正常 的 功 
能 。 在 生物 信息 学 方法 中 ,使 用 较 小 的 字符 集 (26-1) 重新 编码 序列 看 上 去 好 
像 只 是 单纯 的 计算 技巧 ， 但 是 实际 上 ， 在 编码 工作 中 也 可 利用 更 多 的 关于 “基本 ” 
氨基 酸 的 实验 性 工作 ， 来 构建 更 简化 的 序列 空间 集合 以 适应 有 限 的 数据 。 这 里 所 
提 及 的 简 并 策略 的 灵感 源 自 蛋 白质 进化 变异 的 研究 。 这 一 策略 为 如 本 章 下 一 节 所 
描述 的 蛋白 质 结构 预测 方法 提供 了 一 类 附加 信息 ， 从 而 改善 了 方法 的 预测 性 能 。 

在 其 他 应 用 中 ， 编 码 过 程 不 必 保持 原 有 序列 中 残 基 的 连续 顺序 ， 而 是 对 整个 
序列 或 序列 的 一 个 大 片断 进行 预 处 理 ， 得 到 的 编码 向 量 可 作为 神经 网 络 的 输入 信 
息 ， 例 如 使 用 400 个 氨基 酸 二 元 组 的 频率 信息 来 预测 蛋白 质 的 折 亚 类 和 家 族 关系 
时 ， 就 可 使 用 以 上 预 处 理 方法 。! PS 在 内 含 子 、 外 最 子 分 类 中 ， 也 可 使 用 间接 
的 编码 方式 : 将 六 元 组 统计 信息 、GC 成 分 信息 、 序 列 词 表 信息 以 及 其 他 一 些 指 
标 整合 为 输 和 向量， 作为 神经 网 络 的 输 人 信息 。[s2?1 

在 下 面 所 描述 的 神经 网 络 的 成 用 中 将 提 到 ， 一 种 好 的 输出 表示 和 后 期 处 理 策 
略 也 是 十 分 重要 的 。 在 大 多 数 的 实际 应 用 中 ， 智 能 化 的 后 期 处 理 可 能 比 选择 最 优 
网 络 结构 更 重要 ， 这 个 最 优 网 络 结构 优化 准则 是 使 输出 神经 元 的 输出 量 量化 的 推 
广 误差 最 小 。 一 般 地 ， 输 出 神经 元 的 个 数 直接 对 应 于 输出 类 别 的 数量 ， 也 使 用 正 
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6.2 





生物 信息 学 


交 0、1 向 量 的 稀 琉 编 码 形式 表示 。 输 出 表示 形式 和 后 期 处 理 形式 的 设计 依赖 于 问 
题 的 生物 学 背景 特征 。 例 如 ， 若 知道 蛋白 质 中 的 o 折 芍 所 需要 的 氨基 酸 长 度 最 小 
为 4 这 一 个 先 验 知识 ， 则 在 预测 结果 中 长 度 小 于 4 的 “ 折 琶 ”就 会 被 剔除 ， 从 而 提 
高 了 整体 预测 性 能 。 又 如 ， 若 知道 一 段 序列 中 只 包含 单一 的 给 定 类 型 的 功能 位 点 ， 
比如 N 端 信号 航 的 剪 切 位 点 ， 就 可 以 更 恰 当地 设计 阔 值 界定 规则 ， 以 保证 真实 位 
点 的 高 识别 率 和 降低 样本 的 假 昌 性 率 。 关 于 连续 网 络 误差 和 离散 分 类 误差 之 间 关 
系 的 讨论 多 参考 文献 [90] 。 

















序列 相关 性 与 神经 网 络 


即使 考虑 了 氨基 酸 的 相似 性 ， 许 多 序列 的 结构 功能 单元 在 序列 位 置 上 也 不 是 
保 宁 的 。 众 所 周知 ， 即 使 采用 氨基 酸 巳 基 对 应 位 置 的 比较 评估 和 量化 所 得 到 的 序 
列 相似 性 很 低 ， 蛋 白质 的 结构 也 订 能 高 度 保守 。 蛋 白质 结构 的 形成 ， 无 论 是 局 部 
结构 还 是 全 局 结构 ， 都 不 仅仅 依靠 各 个 位 置 上 的 残 基 的 独立 贡献 ， 而 是 依靠 残 基 
序列 间 的 协 间作 用 完成 的 。 

不 但 对 全 长 的 蛋 户 质 如 此 ， 局 部 区 域 的 蛋白 质 也 是 如 此 ， 例 如 由 特定 激酶 识别 
的 还 酸 化 位 点 motif ( 超 二 级 结构 异体 或 一 自 具 有 特色 功能 的 生物 序列 ， 前 者 为 主 )。 
即使 那些 与 相同 的 激酶 发 生 作用 的 线性 motif， 其 序列 的 模式 也 有 很 大 不 同 。[331 ae 
察 这 些 序列 片断 的 局 部 结构 [ 借助 蛋白 质数 据 库 (PDB) 中 结构 已 知 的 蛋白 质 ] ， 
可 以 发 现 它们 即使 在 氨基 酸 组 成 上 是 多 样 的 ， 在 结构 上 也 可 能 是 高 度 保守 的 。[?41 

由 于 具有 将 不 同 的 输入 值 相关 联 的 能 力 ， 神 经 网 络 技术 具有 检测 序列 间 协 同 
性 的 潜力 。 实 际 上 ， 人 们 猜测 :在 训练 过 程 中 得 到 的 权重 间 的 协同 性 ， 恰 恰 反 映 
了 输入 单 体 间 的 关联 性 ， 而 这 种 关联 性 又 与 神经 网 络 所 执行 的 预测 任务 密切 村 
Ke 



































神经 网 络 这 种 建立 序列 不 同位 置 关 联 性 的 能 力 ， 与 人 脑 依 赖 上 下 文 推断 语句 中 
不 同 字符 的 能 力 相 类 似 。 例 如 ， 在 包含 有 四 个 “a” 的 句子 “Mary had a little lamb” 
中 “a” 发 三 种 不 同 的 音 ， 联 想 关联 能 力 在 这 类 发 音 问 题 中 体现 得 很 显著 。[4801 另 
一 个 说 明 这 种 关联 能 力 的 实例 见 图 6-1 所 示 。 在 图 中 ， 只 要 接收 映射 到 视网膜 上 的 
信息 的 大 脑 接受 过 阅读 英文 、 理 解 英文 文本 顺序 结构 的 训练 ， 同 一 个 符号 就 可 以 理 
解 成 不 同 的 意思 。 
正 是 这 种 能 力 才 使 得 神经 网 络 在 序列 分 析 中 获得 了 极 大 的 成 功 ， 因 为 它 在 一 
定 程度 上 弥补 了 权重 矩阵 和 HMM 的 一 些 不 足 。 由 于 在 输入 层 编码 的 序列 信息 可 
以 来 自给 定 序列 的 不 同位 置 ， 所 以 神经 网 络 技术 并 不 仅仅 局 限于 对 局 部 相关 性 的 
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ARUMAN 


图 6-1 人 类 阅读 的 联想 关联 能 力 


阅读 英文 的 人 通常 能 对 这 个 单词 中 出 现 的 那 两 个 形状 相同 的 字符 伍 出 不 同 的 识别 : 前 一 个 是 上 ， 而 后 
-个 是 a。 在 生物 序列 分 析 中 ， 当 结构 和 上 坊 能 特征 更 多 地 来 源 于 序列 中 的 协 网 联系 而 不 是 由 单独 的 核 车 酸 
或 氨基酸 决定 时 ， 这 种 类 似 的 信息 处 理 能 力 就 恕 得 十分 必要 了 。 神 经 网 络 技术 具有 检测 短程 、 长 程序 列 相 
关 的 能 力 ， 从 而 弥补 了 传统 的 8MM 学 列 分 析 的 不 足 。 


Fp. OPP 但 正如 以 下 章节 所 讲述 的 ， 大 多 数 应 用 仍 集中 于 局 部 和 线性 序列 片断 
的 分 析 。 


蛋白 质 二 级 结构 预测 





当 人 们 在 计算 机 屏幕 上 观察 蛋白 质 骨 架 结 枸 的 图 形 时 ， 可 以 马上 看 出 一 种 
重复 结构 形式 的 局 部 折 准 规则 性 。 有 两 种 二 级 结构 ( 通过 骨架 中 的 氢 键 保持 其 
结构 )， 在 用 X 光 衍射 法 得 到 其 一 级 结构 之 前 ， 就 已 经 有 理论 预测 出 它们 的 存在 
了 。 对 二 级 结构 的 类 型 尚 没有 规范 的 定义 ， 但 表示 每 个 氨基 酸 残 基 拥 有 成 对 二 
面 角 的 Ramachandran 图 显示 ， 特 定 的 二 面 角 区 域 基本 上 代表 了 实际 蛋白 质 的 特 
定 折 秋 区域 。 一 个 区 域 与 螺旋 相对 应 ， 此 时 骨架 中 的 氧 键 连接 第 :个 和 第 i+4 个 残 
基 ; 另 一 区 域 与 B 折 着 对 应 ， 其 中 氨 键 以 平行 或 反 平行 的 方式 连接 两 段 序列 片 
断 。 






































这 类 结构 中 存在 的 序列 偏好 和 序列 间 关联 ， 使 得 二 级 结构 预测 问题 成 为 计算 
分 子 生 物 学 的 经 典 问题 之 一 。 | 362,128,129,196 ] 无 论 早期 的 研究 14937783262370323] 还 是 现 
今 的 先进 方法 “551 ， 都 使 用 了 不 同类 理 的 神经 网 络 结构 来 研究 这 一 问题 。 

在 实验 手段 所 测定 的 三 维 结构 中 匹配 二 级 结构 的 种 类 ， 是 非常 繁 锁 的 。 现 在 ， 
这 个 工作 的 大 部 分 内 容 由 广泛 使 用 的 DSSP 程 序 完成 。[2?71 DSSP 称 序 通过 骨架 原 
子 的 三 维 坐 标 来 分 析 灌 在 的 氢 键 重复 结构 模式 。 另 一 个 可 以 完成 该 匹配 功能 的 程 
序 是 STRIDE 程 序 ， 其 同时 使 用 了 氧 键 能 量 和 骨架 的 二 面 角 信息 ， 而 不 仅仅 是 氨 
键 信息 。' -而 DEFINE 程 序 的 处 理 思 路 是 ， 使 用 不 同 的 距离 矩阵 来 计算 蛋白 质 
的 诛 子 间距 离 与 埋 想 的 二 级 结构 的 原子 间距 离 之 间 的 差异 。'*} 

以 上 这 些 程序 都 不 很 完善 。 在 坐标 数据 精度 有 限 的 情况 下 区 分 螺旋 和 折 芭 ， 
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其 算法 并 不 是 很 简单 。 另 一 个 难点 在 了 
解析 表达 式 。 更 为 理想 的 处 理 方法 ， 玫 








 ， 量 子 化 学 不 能 给 出 非常 准确 的 氢 键 强度 
下 应 仅仅 把 注意 力 集中 在 问题 的 可 视 化 和 拓 








扑 结构 构建 上 ， 还 应 试图 寻找 一 种 预测 能 力 更 好 的 二 级 结构 匹配 方案 。 一 种 压缩 
的 预测 方案 剔除 了 一 些 螺旋 和 折 杰 结构 ， 从 而 获得 了 近 平 完美 的 预测 效果 。 这 种 
方案 上 分 有 价值 ， 尤 其 是 在 三 级 结构 预测 中 ， 通 常 使 用 二 级 结构 的 预测 结果 作为 


预测 的 起 点 。 
利用 多 层 感 知 器 { MLP ) 预测 二 级 结构 


6 


ERAR. VI 输入 窗口 长 为 W ( 奇数 )， 最 优 长 度 一 般 为 13 个 氨基 酸 。 输 入 采 有 
Al=21， 对 应 于 20 个 氨基 酸 和 1 个 终止 符 导 CA 
样 ， 输 入 层 有 13 x 21=273 个 节点 。 通 常 采 用 的 
隐 层 包含 40 个 sigmoidal 类 型 的 节点 。 因 此 ， 这 一 网 络 结构 的 总 参数 个 数 为 273 x 
40+40 x 3+40+3=11 083 个 。 输 出 层 有 3 个 sigmoidal 类 型 的 节点 ， 其 正 交 编 码 分 别 


了 


.3.1 











钱 和 寨 诺 斯 基 的 早期 工作 中 使 用 的 基本 网 络 结构 是 带 有 一 个 隐 层 的 全 连接 多 








$i 


和 最 终 输出 分 类 之 间 的 关系 增加 了 额外 的 非 线性 特征 。 


E 交 编码 的 方式 ， 字 符 集 大 小 为 
于 编码 N 端 或 C 端 的 不 完全 窗 )。 这 和 























对 co 螺旋 、 有 可 和 卷曲 三 种 类 别 。 不 同 的 输出 表示 在 窗口 中 间 位 置 上 对 应 残 基 
的 不 同 归 类 ( 共 分 为 三 类 )。 类 别 的 归属 是 由 输出 最 大 的 输出 节点 按照 “ 胜 者 通 
吃 ” 原 则 ( the winner-take-all principle ) 决定 。“ 胜 者 通 吃 ”原则 的 采用 ， 为 输入 








而 采用 这 一 原则 的 不 带 








隐 层 的 神经 网 络 ， 不 再 是 完全 线性 的 了 。 序 列 输入 在 内 部 隐 层 中 的 向 量 表示 形式 
需要 被 线性 平面 分 割 的 要 求 不 高 时 ， 也 会 引入 这 种 原则 。 只 要 正确 的 输出 节点 到 


分 类 超 平面 的 距离 最 小 ， 就 在 一 定 程度 上 人 允许 带 有 一 定 
在 其 他 类 别 的 区 域 中 。 


后 使 用 
数 的 归 
们 取 自 
大 于 0. 


兔 了 使 用 连续 输入 窗 给 性 能 带 来 的 影响 。 使 用 这 种 神经 网 络 结构 ， 模 型 的 预测 正 








利 














扰动 的 输入 样本 向 量 点 落 


络 初 始 化 时 ， 权 重 初 值 为 在 区 间 [ -0.3, 0.3 ] 上 均匀 分 布 的 随机 变量 ， 然 
基于 LMS 误 差 函 数 的 反 向 传播 算法 训练 网 络 。( 注意 : 采用 相对 篇 误 差 函 

















指数 类 型 的 输出 层 更 为 合适 些 。) 训练 集 的 大 小 约 为 20 000 个 残 基 ， 它 


Brookhaven 蛋 白质 数据 库 ( PDB )。 因 此 参数 数目 与 样本 量 的 比值 相当 高 ， 








5。 现 今 ， 越 来 越 多 的 蛋白 质 结构 通过 实验 测 得 ， 相 对 应 的 二 级 结构 匹配 数 
据 库 的 规模 也 越 来 越 大 。 


用 蛋白 质 序列 进行 训练 时 ， 训 练 集 的 输入 窗 以 随机 顺序 输入 神经 网 络 ， 潍 

















确 率 从 随机 分 类 时 的 33% 上 升 到 60%， 然 后 才 会 出 现 过 拟 合 。 更 精确 地 讲 ， 整 体 

















正确 率 为 Q;=62.7%， 对 应 相关 系数 为 Co=0.35，Cg=0.29，C,=0.38。!”?1 由 于 自 


然 界 的 蛋白 质 中 出 现 的 螺旋 、 折 又 、 卷 曲 结构 的 数量 不 等 ( 大 约 为 0.3 : 0.2 : 0.5), 
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所 以 仅仅 通过 窗口 的 正确 预测 率 尚 不 能 充分 说 明 预 测算 法 的 性 能 。 于 是 ， 引 人 一 
个 新 的 性 能 度量 一 一 相关 系数 ，`382 1 其 综合 考虑 了 正 、 负 样本 预测 正确 、 错 误 数 
目 间 的 影响 与 联系 : 











ee (PpNy) —(NEPE 
* Jim + NE\(Nx + PL) Pe + NE) Pe + PE) 


其 中 X 可 以 表示 螺旋 、 折 伏 和 卷轴 类 别 之 一 或 由 其 中 的 多 个 融合 为 一 的 类 别 。Px 
和 ANx 为 预测 正确 的 正 样 本 和 和 负 样本 数 ， 类 做 地 ， 慌 和 Nf 为 预测 错误 的 正 样本 
和 负 样 本 数 。 完 全 正确 的 预测 对 应 C(X ) =1， 完 全 错误 的 预测 对 应 C(X ) =-1 
(更 详尽 的 讨论 可 参见 6.7 节 )。 

研究 人 员 进 行 了 一 系列 测试 网 络 结构 及 其 他 特征 变量 的 实验 ， 他 们 得 出 如 下 
结 沦 : 将 输入 增加 为 大 于 13 个 氨基 酸 的 氏 度 或 增添 诸如 氨基 酸 破水 性 之 类 的 其 他 
额外 信息 ， 并 不 能 提高 算法 的 预测 性 能 。 同 样 ， 使 用 更 好 的 二 级 结构 分 类 方法 、 
更 高 阶 甚 至 反馈 的 神经 网 络 或 前 枝 法 《pruning method) 等 ， 都 不 能 提高 预测 的 
性 能 。 

通过 在 先前 的 网 络 结构 占 联 田 外 一 个 神经 网 络 ， 它 利用 前 一 层 结构 的 二 个 
节点 的 某 些 相似 的 输出 值 以 及 相 邻 节点 输出 值 的 相关 性 ， 可 以 使 预测 性 能 提高 。 
后 一 个 神经 网 络 的 输入 窗 长 度 为 13， 对 应 前 一 个 网 络 的 13 个 连续 输出 。 这 样 ， 后 
一 个 神经 网 络 的 输入 层 节点 为 13 x 3 个 ， 另 外 还 具有 一 个 包含 40 个 节点 的 隐 层 和 
通常 为 3 个 节点 的 输出 层 。 使 用 这 种 串联 结构 ， 整 体 预测 性 能 达到 O:=64.3% ， 对 
应 相关 系数 为 Cu=0.41，Cp-0.31，C=0.41。 训 练 结束 时 ， 后 一 个 网 络 去 除了 前 一 
个 网 络 输出 中 不 连续 的 预测 结果 ,使 预测 结果 更 为 合理 。 从 以 上 的 分 析 结果 可 知 ， 
只 使 用 “局 部 ”算法 【这 里 的 “局 部 ”针对 预测 算法 的 输入 窗 长 度 而 言 )， 最 终 
可 达到 的 预测 件 能 的 上 限 为 略 大 于 70%。 在 1988 年 ， 这 些 结果 看 起 来 较 包 括 
Chou-Fasman 算 法 P] 在 内 的 其 他 算法 好 得 多 。 后 来 随 着 数据 其 的 不 断 增长 ， 各 
种 更 为 先进 的 神经 网 络 算法 的 性 能 得 到 了 很 大 的 所 高， 但 Chou-Fasman 算 法 的 性 
能 改善 却 不 很 明显 。 59?] 从 上 面 的 分 析 可 以 看 出 ， 现 在 的 一 些 二 级 结构 预测 算法 
已 经 超越 70% 的 项 测 水 平 ， 有 些 算 汰 的 预测 水 平 甚至 接近 于 80%。 


63.2 ”基于 进化 信息 和 和 氨基酸 构成 的 预测 方法 


大 多 数 后 继 的 使 用 神经 网 络 的 一 级 结构 顶 测 工作 {78.262,323,505,451,452,290.427 ] 都 以 
上 述 的 网 络 结构 为 基础 ， 有 时 会 与 渚 如 Chou-Fasman 规 则 '52?] 之 类 方法 相 结 


2 [35823371 
合 。 











(6.1) 
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一 个 很 有 意思 的 实例 是 使 用 Chou-Fasman 规 则 来 初始 化 神经 网 络 。!””" | 这 一 可 
于 知识 的 神经 网 络 与 将 规则 直接 编码 到 权重 中 的 神经 网 络 在 性 能 上 类 似 。 因 此 可 以 





使 用 PDB 中 的 实验 数据 来 训练 





所 洪 加 的 额外 的 自由 





连接 。 所 有 规则 中 部 不 包含 的 输 








人 序列 和 结构 分 类 问 的 关系 ， 将 在 训练 校正 额外 参数 的 过 程 中 得 到 处 理 。 虽 然 其 性 
能 只 比 钱 - 寒 诺 斯 基 网 络 稍 有 提高 ， 但 这 一 结构 仍 有 引 人 之 处 ， 因 为 它 很 容易 考察 
网 络 的 权重 。 与 Chou-Fasman 规 则 相 比 ， 正 如 期 户 的 那样 ， 其 性 能 大 大 提高 。 

参考 文献 【505 | 中 比较 了 MLP 和 贝 叶 斯 这 两 种 方法 。 在 这 项 研究 中 ， 贝 川 
斯 方法 是 以 人 为 假设 租 白 质 每 个 位 置 上 的 氨基 酸 出 现 概率 与 周围 位 置 上 的 氨基 酸 





类 型 独立 为 基础 的 。 尽 管 如 此 ， 其 预测 J 











E 确 率 仪 略 低 于 上 述 构造 的 神经 网 络 。 研 


究 人 员 构 造 了 另外 一 种 神经 网 络 ， 共 中 输出 神经 元 直接 表示 结构 类 别 的 条 件 概 举 。 
而 概率 形式 的 方法 允许 引信 新 的 目标 函数 一 一 互信 息 ( mutual information), F. 
信息 将 作为 预测 正确 率 度 量 的 相关 性 概念 转化 为 “种 有 用 的 训练 方法 。 虽 然 概 率 





形式 的 方法 在 正 饥 府 上 与 其 人 


也 方法 相差 无 几 〈 同 





样 利 用 均 方 误差 函 数 )， 但 它 的 


训练 集 的 正确 率 明显 比 其 他 方法 向 。 即 使 在 可 调 参数 数 量 不 变 的 条 件 下 ， 与 使 用 
均 方 误 莽 指标 相 比 ， 使 用 互信 息 指标 以 牺牲 卷曲 结构 的 预测 正确 率 为 代价 ， 提 高 
了 对 螺旋 和 折 芝 结构 的 预测 止 确 率 。 

虽然 基 十 不 同 数据 集 的 算法 测试 很 难 比 较 ， 但 罗斯 特 和 莱 德 设计 的 PHD 预 测 
服务 器 1 ”5243. 所 得 到 的 研究 结果 较 以 往 的 各 类 方法 ， 在 项 测 性 能 上 获得 了 最 
显著 的 提高 。 在 1996 征 举行 的 Asilomar CASP2 ( 蛋白 质 结构 预 测 技术 评判 ) 竞赛 
中 ， 该 方法 在 一 级 结构 预测 方 而 明显 优 于 其 他 方法 。[29 1 侠 究 大 员 进 行 这 一 专门 
的 试验 是 为 了 尝试 评判 蛋白 质 二 级 结构 黑箱 预测 技术 的 现 有 发 展 水 平 。 在 预测 者 
医 卢 质 序列 是 十 分 合适 的 预测 处 理 对 象 。 对 于 预测 竞 
赛 第 一 阶段 所 提供 的 未 知 测试 集 ，PHD 方 法 的 预测 止 确 率 达 到 74%。 竞 赛 第 一 阶 
段 包含 关联 、 二 级 结构 和 分 子 模拟 预测 ， 而 这 一 阶段 的 竞赛 是 公认 最 难 的 ， 因 为 








有 眼中， 一 些 让 在 解析 结构 的 如 





对 竞赛 者 而 言 ， 所 有 的 先 验 知识 仅仅 为 氨基 酸 的 一 级 序列 结构 。 
































基于 单一 序列 的 二 类 别 一 级 结构 预测 的 正确 率 低 于 65%-68%。20 世 纪 80 年 代 
中 期 ， 三 类 别 的 预测 正确 率 达到 了 50%~55%， 更 高 级 的 神经 网 络 算法 和 增长 的 数 
据 集 又 使 止 确 率 提高 到 65%， 人 们 曾经 认为 这 个 水 平 元 法 鸽 越 。 与 现今 的 其 他 较 
成 功 的 方法 类 似 ，PHD 的 核心 思想 是 认识 到 序列 家 族 比 单一 序 罚 包含 史 多 的 有 用 
信息 ， 内 此 预测 算法 不 应 只 提取 13~21 个 连续 残 基 的 序列 片断 中 所 包含 的 局 部 信 


息 。 这 一 思想 在 先前 的 多 要 


EJE ZI kE XT AY FE H 





AR [587,139,60 ] 。 














P 有 所 体现 ， 具 体 可 见 参考 文 


使 用 进化 信息 使 预测 正确 率 进一步 提高 至 大 于 72%, 相应 的 相关 系数 为 C=0.64， 
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Ce=0.53。 合 用 进化 信息 进行 预测 有 由 个 步骤 ， 第 一 步 ， 扫 描 已 知 序列 数据 库 ， 使 用 
比 对 方法 好 找 类 似 序 列 复 ;第 二 步 ， 利 用 与 序列 长 度 有 关 的 阔 值 对 序列 进行 利 选 ， 
寻找 有 显著 相似 性 的 序列 个 体 ; 第 二 步 ， 基 于 所 有 可 能 的 三 维 同 源 性 ， 完 成 一 系列 
侍 基 版 问 的 替换 ， 第 四 步 ， 将 完成 氨基 酸 蔡 换 后 得 到 的 新 序列 谱 用 于 项 测 。 

PHD 方 法 是 第 一 种 使 用 250 条 独特 的 蛋白 质 链 进行 交叉 验证 并 证 明 其 二 级 结 
=H AM ERA FGA. OOO 正如 财 6-2 所 示 ， 该 方法 是 将 蔡 
换 后 的 新 序列 谱 和 源 自 多 重 序 姑 比 对 的 附加 信息 以 及 蛋白 质 的 氨基 酸 组 成 整合 在 
一 起 ， 作 为 输入 向 量 赋 也 神经 网 络 。 输 入 向 呈 不 再 基于 传统 的 单一 序列 的 正 交 编 
础 ， 而 中 基于 对 与 待 孩 测序 多 高 度 同 源 的 序 庆 篮 进 行 多 重 序列 比 对 所 获得 的 序列 
谱 〈 氨基 酸 在 不 同位 置 出 现 的 频率 向 量 ) 的 。 在 图 6-2 所 示 的 例子 中 ， 序 列 谱 共 
包含 5 个 序列 。 序 列 中 小 写字 母 表 示 比 对 序列 的 间隙 。 恒 白质 的 每 一 特定 位 置 对 
应 有 20 个 值 (1 列 ) 以 及 3 个 附加 值 ， 间隙 个 数 、 插 入 个 数 和 保守 权重 。 将 13 个 相 
邻 列 联合 作为 输入 。“L”( 环 ) 类 别 等 间 于 其 他 绝 大 多 数 研 究 文献 中 出 现 的 卷曲 
分 类 类 别 。 整 个 二 级 结构 预测 系统 包含 3 层 : 2 个 神经 网 络 层 和 1 个 对 独立 训练 的 
神经 网 络 结果 取 平 均 的 计算 层 。 

这 一 ' 研 究 人 工作 申 的 序列 谱 集合 肥 白 HSSP 数 据 库 。 ;HSSP 是 一 个 融合 了 结 
构 和 序列 信息 的 二 级 数据 库 。 对 于 每 个 源 自 PDB 的 已 知 三 维 结构 的 蛋白 质 ， 该 数 
据 库 给 出 了 所 有 可 能 的 同 源 性 多 重 序列 比 对 和 该 蛋白 质 家 族 的 序列 特征 。 

神经 网 络 的 反 向 传播 训练 过 程 可 能 是 平衡 的 或 非 平衡 的 。 在 大 型 的 、 低 同 源 
性 的 蛋白 质数 据 库 中 ， 螺 旋 、 折 又 和 卷曲 结构 的 数量 比例 是 30%、20%% 和 50%。 
在 非 平衡 的 训练 中 ，13 个 氨基 酸 长 度 的 向 量 以 相同 的 概率 随机 出 现 。 在 平衡 的 训 
练 中 ,不同 类别 的 训练 样本 个 数 常常 是 相同 的 。 这 意味 着 螺旋 和 折 委 类 的 样本 为 
着 曲 类 样本 的 2 倍 。 在 最 终 的 预测 系统 中 ， 人 们 使 用 兼 具 这 两 种 训练 方案 的 网 络 。 
由 平衡 方案 训练 的 神经 网 络 对 折 奏 类 的 预测 更 可 靠 。 

网 络 的 许多 其 他 细节 对 于 提高 整体 预测 正确 率 ， 尤 其 对 于 提高 折 登 类 的 预测 
正确 率 和 提高 二 级 结构 片断 鹿 非 单个 残 基 的 预测 正确 率 ， 是 上 分 重要 的 。 对 40%% 
的 高 可 靠 性 残 基 进行 预测 ， 该 方法 正确 预测 率 约 达 90% ， 这 个 正确 率 与 同 源 模 建 
方法 持平 。 整 体 顶 测 下 确 率 中 将 近 10 个 百分点 的 提高 要 归功 于 进化 信息 的 引入 。 

显而易见 ， 钱 - 塞 诺 斯 基 网 络 结 爸 的 -个 重要 缺陷 是 存在 过 拟 合 的 问题 。 罗 
斯 特 和 和 桑 德 使 用 了 相同 的 基本 结构 ， 但 应 用 了 两 种 策略 来 解决 过 拟 合 的 问题 ;第 
一 种 策略 是 提前 结束 ; 第 二 种 策略 是 将 用 不 问 输入 和 不 同学 习 算法 独立 训练 的 不 
同 网 络 做 整体 平均 。 ”9- 但 他 们 的 工作 中 最 具 创 新 性 的 方面 在 于 多 重 序列 比 对 
的 运用 ， 寺 用 序列 谱 〔 亦 邵 源 自 多 重 序列 比 对 的 位 置 相关 的 频率 向 量 ) 取代 原始 
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类 别 的 初步 确定 | ok a 
@OO 


e.g. 0.19 0.61 0.17 


PM HIB 
(具有 最 大 值 的 节点 ) 





上 类别 时 使 用 的 
单元 对 应 3 个 节点 














胜 考 通 吃 ， 


图 6-2 罗斯 特 和 又 德 提出 的 二 级 结构 预测 方法 PHD 的 网 络 结构 图 


输入 向 量 不 再 是 传统 的 序列 的 正 交 编码 ， 而 是 来 自 对 与 待 预测 序列 高 度 同 源 的 序列 能 进行 多 重 序列 比 
对 所 获得 的 序列 谱 ( 每 一 列 分 别 代表 氨基 酸 在 相应 位 置 出 现 的 频率 )。 


的 氨基 酸 序列 向 量 作为 网 络 的 输入 。 之 所 以 如 此 ， 是 由 于 多 重 序列 比 对 比 单一 序 
列 包含 了 更 多 的 二 级 结构 信息 ， 而 二 级 结构 具有 比 一 级 结构 更 强 的 保守 性 。 








6.3.3 ”网 络 模型 集 和 自 
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适应 编码 


ABH (Riis) ASE! (Krogh) 研究 了 二 级 结构 预测 的 另 一 种 独特 的 神经 网 络 


Iik, S 他 们 通过 精心 
要 部 分 构成 : 第 一 部 分 ,在 
较 大 。 对 氨基 酸 进行 自 适应 


编码 表示 形式 ， 可 大 大 减 小 输入 层 的 维 数 。 这 可 以 通过 


实现 ， 即 每 个 氨基 酸 编 码 利 














设计 神经 网 络 结构 避免 了 过 拟 合 问题 。 该 方法 由 四 个 主 
早先 的 网 络 结构 中 引入 大 量 参 数 是 由 于 输入 层 的 维 数 比 
编 但 ， 即 通过 神经 网 络 寻找 一 种 输入 字符 的 优化 、 庄 缩 
用 局 部 或 分 布 式 编码 加 以 
用 M 个 取 连 续 值 的 节点 进行 编码 。 更 详细 地 说 ， 先 使 用 





ca 














20 个 节点 进行 正 交 编 码 ， 全 零 向 量 表示 N 端 或 C 端 的 空白 符号 。 此 时 输入 层 大 小 为 


Wx 20， 以 特定 的 连接 模式 


FRAM x W 个 隐 层 节点 的 第 一 隐 层 连接 。 输 入 层 序列 


的 每 个 位 置 与 M 个 sigmoidal 节 点 连接 ， 这 种 连接 必须 是 恒定 的 ， 即 在 序列 不 同 的 位 
车 ， 其 连接 值 是 便 定 不 变 的 。 在 神经 阅 络 术语 中 ， 这 一 技术 称 为 “权重 共享 "。 在 














向 传播 算法 应 用 于 “权重 共 





ATE) 仅 为 21 x M 个 。 与 





图 像 处 理 问题 中 , 这 组 册 定 连接 被 定义 为 卷 积 滤波 核 ( kernel of a convolution filter )。 
在 对 取 相 同 值 的 权重 进行 调整 时 ， 只 需 将 权重 修正 值 相 加 求 和 ， 即 可 很 容易 地 将 反 

















学 ”网 络 的 参数 学 习 中 。 这 样 字符 集中 的 每 个 字符 就 编 











码 成 UM 个 取 连 续 值 的 节点 。 在 模式 识别 中 ， 这样 的 M4 个 节点 可 看 做 一 个 特征 提取 器 。 
值得 注意 的 是 ， 利 于 问题 解决 的 特征 是 在 学 习 过 程 中 优化 和 提取 得 到 的 ， 而 不 是 事 
先 已 知 的 。 无 沦 窗 长 W 是 多 少 ,输入 层 与 该 表示 层 之 间 的 自由 连接 的 数量 ( 包括 偏 

















前 - 网络 结 构 的 第 一 层 中 出 现 的 10 000 多 个 参数 相 比 ， 





参数 的 数量 大 大 减少 。 在 里 斯 和 克 罗 的 研究 工作 中 ， 取 M-3，W-15。 

第 二 部分， 里 斯 利克 罗 为 三 类 别 中 的 每 一 类 分 别 设 计 了 不 同 的 网 络 。 在 o 咖 
族 的 识别 中 ， 通 过 在 第 一 隐 层 和 第 二 隐 层 之 问 建立 三 残 基 周 期 性 连接 ， 将 螺旋 的 
周期 特性 加 以 利用 〈 见 图 6-3 ) ;第 二 隐 层 与 输出 层 建 立 全 连接 关系 。 在 有 折合 和 
卷曲 的 识别 中 ， 第 一 隐 层 与 一 般 为 ~10 个 节点 大 小 的 第 二 隐 层 建立 全 连接 关系 ; 
第 二 隐 层 与 输出 层 建立 全 连接 关系 。 这 样 ， 一 个 a 螺旋 网 络 一 般 共有 160 个 可 调 参 
数 ，B 折 冯 或 卷曲 网 络 一 般 包含 300~500 个 可 调 参数 。 在 分 别 训练 这 些 网 络 时 ， 使 
用 了 平衡 学 习 的 训练 集 ， 使 正 、 负 样本 数 相同 。 






































第 三 部 分 ， 里 斯 和 克 罗 使 用 网 络 模型 集 和 过 滤 技 术 提高 预测 的 正确 率 。 对 每 


个 位 置 的 每 种 不 同类 型 的 结构 使 用 5 个 不 同 的 网 络 模型 。 模 型 集中 的 每 个 网 络 是 
各 不 相同 的 ， 例 如 隐 层 节点 数目 互 不 由 同 。 这 样 组 合成 的 网 络 采用 一 个 长 度 为 15 








个 连续 预测 点 的 窗口 。 因 此 

















， 该 网 络 输入 层 节点 数目 为 15 x 3 x 5=225 ( 见 图 6-4 )。 


























为 了 使 总 参数 数目 处 于 合理 范围 之 内 , 需要 限定 每 个 位 置 每 个 类 别 ( w、8 和 卷曲 ) 


仅 可 包含 1 个 隐 层 节点 。 这 
层 。 最 后 ， 隐 层 与 3 个 归 一 


























笠 ， 输 入 被 局 部 连接 到 - -个 包含 3 x 15=45 个 节点 的 稳 
化 指数 类 型 的 输出 节点 全 连接 ， 来 计算 窗 中 央 点 的 残 
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A A 图 中 的 所 有 位 置 都 是 等 同 的 


图 56-3 ”预测 蝶 旋 结构 的 里 斯 和 克 罗 的 网 络 


该 网 络 使 用 了 局 部 编码 策略 ， 并 引信 了 三 残 基 周 期 。 黑 色 贺 图 表示 3 个 隐 层 节点 ， 狂 线 表示 3 个 网 络 权 
重 。 在 图 的 下 部 ， 带 阴影 的 二 角形 表示 20 个 共享 权重 ， 带 阴影 的 矩阵 表示 20 个 输 人 人 节点。 网络 选用 的 窗口 


尺寸 为 13 个 残 基 ， 并 有 1 个 输出 神 


经 元 。 


基 归 属 各 类 的 概率 。 与 上 面 的 理论 分 析 相 一 致 ， 误 差 指标 采用 了 负 对 数 似 然 度 ， 
在 此 例 中 即 为 真实 类 别 归属 频率 与 预测 概率 之 间 的 相对 灶 。 

最 后 一 部 分 ， 里 斯 和 克 罗 将 多 重 序列 比 对 
免 使 用 序列 谱 时 丢失 窗 中 氨基 酸 的 关联 信息 ， 
用 多 重 序列 比 对 的 方法 综合 这 些 预测 。 这 一 策 
涉及 ， 可 与 任意 种 比 对 算法 相 结合 ， 适 用 于 从 一 级 结构 中 预测 二 级 结构 的 所 有 





方法 。 最 终 的 预测 是 利 月 


MAHL 





REA HEX 


的 方法 和 加 权 方 案 相 结 合 。 为 了 避 
首先 对 单一 认 列 做 出 预测 ， 然 后 再 
赂 在 参考 文献 [ 587,457,358 ] 中 有 


的 单一 序列 预测 结果 进行 综合 。 为 


补偿 数据 库 编 倚 而 采用 的 加 权 方 案 为 最 大 炳 值 加 仅 。'” ] 给 定 列 中 的 单独 打分 值 
可 用 加 权 平 均 或 权重 优先 的 方式 综合 ， 这 要 看 是 对 单一 序列 预测 算法 得 到 的 概率 





值 取 平均 值 还 是 多 选 一 。 











为 皇 至 最 终 决策 阶段 ， 所 有 的 信息 仍 被 保留 ， 所 以 加 





权 平 均 性 能 较 好 。 研 究 结果 也 证 实 了 这 种 猜测 
种 策略 的 差别 不 大。 然后 使 用 一 个 带 有 5 节点 单 隐 层 的 小 型 网 络 作为 参考 ， 应 用 多 
重 序列 比 对 方法 对 二 级 结构 预测 的 结果 进行 过 滤 〈 详细 内 容 见 参考 文献 [445 ] )。 





该 小 型 网 络 也 可 利用 卷曲 





区 域 较 不 保守 的 性 质 ， 该 性 质 使 卷曲 区 域 的 每 列 在 多 重 


， 虽 然 加 权 平 均 和 权重 优先 选择 两 
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序列 比 对 时 均 获 得 较 高 的 焙 值 。 
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大 量 的 实验 表明 :《〈 1 ) 局 部 编码 的 网 络 结构 可 以 避免 过 拟 合 问 题 ;〈2 ) 使 用 
渚 如 蛋白 质 标准 化 长 度 、 蛋 白质 的 氨基 酸 平 均 组 成 之 类 的 系列 附加 信息 作为 额外 
输入 ， 不 会 改善 预测 的 结果 ;( 3 ) 对 每 个 算法 构成 部 分 所 引起 的 性 能 提高 进行 量 
化 一 一 例如 多 重 序列 比 对 使 预测 性 能 提高 了 5%， 这 主要 来 自 对 较 保守 的 gq、B 结 
构 的 预测 率 的 提高 ; (4) 网 络 的 输出 可 以 理解 为 各 类 别 归属 概率 。 最 重要 的 是 ， 











对 罗斯 特 和 又 德 所 使 用 的 126 种 非 同 源 蛋 白质 的 数据 库 进行 





7 倍率 交叉 验证 实验 


时 ,得 到 的 基本 正确 率 为 G,=66.3%。 结 合 多 重 序列 比 对 方法 后 ， 正 确 率 达 到 
;=71.3%， 相 应 的 相关 系数 为 Co=0.59、Cpg=0.50 和 C.=0.41。 这 样 ， 无 论 如 何 设 
计 网 络 结构 ， 最 终 性 能 实际 上 与 参考 文献 [ 453 ] 相 一 致 。 这 无 疑 为 使 用 局 部 信 
息 进行 预测 的 任何 算法 的 准确 率 上 限 咯 大 于 70%~75% 的 论断 提供 了 又 一 证 据 。 








ape 
整合 网 络 


LLYN EM“ 


LAF STS” 








- - -ANIVGGIEYSINNASLCVGFSVTRGATKGFVTAGHCGTWN. . . 


氨基 酸 序列 


图 6-4 里 斯 和 克 罗 的 网 络 整 合 、 过 滤 预 测算 法 


图 上 方 的 连接 网 络 具有 3 x 5 x 15 的 窗 长 ， 整 合 了 图 中 间 部 分 的 二 级 结构 预测 结果 。 在 网 络 中 ， 对 输 人 


的 三 类 结构 的 整合 加 权 依赖 于 每 个 窗口 的 位 置 特异 性 。 
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6.3.4 ”基于 位 置 特 异性 分 值 矩阵 的 二 级 结构 预测 


PHD 方 法 的 最 大 贡献 在 于 使 用 了 序列 谱 ， 其 由 包含 更 多 的 结构 信息 供 神 经 网 
络 提取 。 序 列 谱 基于 比 对 算法 所 找到 的 同 源 序列 ， 而 序列 谱 的 质量 显然 依赖 于 寻 
找 同 源 序列 所 使 用 的 比 对 算法 。 

PSI-BLAST 方 法 1 采用 了 选 代 搜索 策略 ， 先 用 - -个 单 序列 扫描 数据 库 《 如 
SWISS-PROT 数 据 库 ) 找到 一 组 序列 ， 这 组 序列 又 产 牛 一 组 新 的 搜索 序 询 谱 ， 然 
后 再 用 这 组 搜索 序 麟 谱 导 找 新 的 序列 。 这 种 “序列 漫游 ”( sequence walking) 策 
略 通常 能 获得 更 多 的 序列 家 族 成 员 ， 虽 然 它 也 可 能 导致 选 出 非 相关 序列 、 减 弱 序 
列 谱 的 结构 保守 性 和 家 族 特 异性 偏 倚 等 不 良 后 果 。 

PSI-PRED 方 法 (9°86) 中 ， 约 翰 森 (Jones) 采用 了 这 种 迭代 策略 生成 序列 谱 
从 而 改良 网 络 输入 。 这 些 序列 谱 基 于 位 置 特 异性 分 值 矩 阵 ， 大 大 提高 了 网 络 的 预 
测 性 能 。 约 坦 森 使 用 Blosum62 替 代 短 阵 进行 数据 库 的 初始 扫描 以 获得 序列 谱 ， 而 
在 后 继 扫描 过 程 中 ， 蔽 代 矩 阵 由 点 对 点 的 多 重 序列 比 对 计算 得 到 。 重 复 若 干 次 该 
过 程 ， 可 得 到 网 络 的 输入 向 量 。 
用 这 种 更 先进 的 扫描 方法 所 得 到 的 结果 替代 PHD 方 法 中 的 HSSP 序 列 谱 ， 可 
以 将 三 类 别 [ 螺旋 (DSSP H/G/1), HÆ (DSSP E/B) 和 卷曲 ] 的 预测 正确 率 提 
高 到 76.5%。 若 将 G、I 螺 旋 类 型 包括 在 卷曲 类 别 小 ， 预 测 准确 率 可 进一步 提高 到 
78.3%。 因 此 ， 依 赖 对 二 级 结构 的 精确 定义 ， 预 测 正确 率 变化 范围 为 1%~2%。 这 
一 变化 范围 与 大 多 数 神 经 网 络 方法 以 及 其 他 方法 保持 一 致 。1998 年 举行 的 
Asilomar CASP3 ( 贷 白 质 结构 预测 技术 评判 ) 训 赛 中 ，PSI-PREP 方 法 在 二 级 结 
构 预 测 上 被 公认 为 是 最 好 的 。 对 于 一 个 序列 集合 ， 其 预测 正确 率 可 达 77%; 对 于 
一 个 预测 难度 大 的 序列 子 集 [ 该 子 集 的 规模 相当 于 包括 187 个 单 - 折 秋 子 ( fold ) 
的 大 型 测试 序列 ] ， 其 预测 正确 率 可 达 73%。[”*] 


6.3.5 ”对 800 个 不 同 的 网 络 输出 做 平均 的 预测 策略 
















































































正如 在 大 然 蛋白 质 中 所 观察 到 的 ， 虽 然 折 眷 、 螺 旋 对 序列 长 度 有 一 定 要 求 ， 
但 这 两 种 结构 类 型 的 长 度 分 布 域 还 是 比较 宽 的 。 对 于 一 个 大 型 数据 集 ， 如 果 仅 用 
单一 网 络 进行 预测 ， 窗 长 的 选择 既 要 能 够 发 现 卷曲 到 非 卷 曲 区 域 的 过 渡 ， 又 要 能 
够 发 现 非 卷 昌 到 卷曲 区 域 的 过 渡 ， 因 此 ， 窗 长 必须 在 晴 者 中 进行 折 中 。 大 窗口 可 
以 利用 二 级 结构 中 的 附加 信息 ， 而 小 窗口 识别 小 长 度 的 结 愧 更 有 效 ， 这 类 小 长 度 
结构 不 与 前 后 的 二 级 结构 发 生 重 玲 。 单 一 网 络 中， 窗口 过 大 或 过 小 都 会 降低 预测 
性 能 。 但 对 单独 的 一 个 样本 而 凑 ， 较 大 或 较 小 的 窗口 往往 能 使 识别 更 有 效 ， 也 就 













































































是 说 可 以 使 输出 值 更 接近 于 人 饱和 值 0 或 1。 

当 将 许多 不 同 的 网 络 联合 使 用 时 ， 所 面临 的 一 大 问题 是 如 何 从 这 些 整体 上 次 
优 ， 而 实际 上 对 局 部 数据 更 可 靠 的 网 络 中 获得 收益 。 若 网 络 的 数量 比较 大 ， 简 单 
的 平均 会 使 源 白 各 个 次 优 网 络 的 噪声 栋 积 ， 产 生 负 面 影响 。 有 人 认为 ， 联 合 使 用 
的 网 络 数 目的 上 限 大 约 为 8。L"s- 在 木 项 研究 工作 中 ， 三 类 别 预 测 的 正确 率 大 约 








为 73.63%( 1 个 网 络 )、74.70% (2 个 


网 络 )。 


但 是 彼得 森 (Petersen) 及 其 合作 
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网 络 )、74. 


73% (4 个 网 络 ) 和 74.76% (8 个 


者 在 最 新 的 研究 中 指出 : 整合 800 个 各 不 相同 


(不 同 的 窗 长 、 不 同 的 聊 层 节点 数目 等 ) 的 网 络 ， 所 得 到 的 预测 性 能 会 提高 。 ”1 
络 中 ， 哪 些 网 络 对 测试 集合 中 给 定 氨 基 酸 残 


这 一 整合 过 程 的 关键 在 于 识别 800 个 网 








基 的 预测 可 靠 性 高 。 仅 对 高 度 可 靠 的 顶 测 结果 做 于 
引入 次 优 网 络 的 噪声 ， 消 除 假 性 的 正 、 负 预测 点 。 








使 用 这 一 策略 可 以 将 预测 正确 率 提 高 EA 


率 。 将 DSSP 分 类 的 类 别 信 息 结合 到 螺旋 、 折 又 
预测 正确 率 ( 对 各 氨基 酸 预 测 结果 取 平 均 ) WR 
和 80.2 允 之 问 。 蛋 白质 的 单 链 平 铅 的 颈 测 正确 率 





输出 扩张 








EF 均 ， 使 之 能 利用 更 多 网 络 ， 避 免 


中超 过 PSEL PRED 方 法 的 预测 止 确 
和 卷曲 分 类 问题 中 后 ， 氨 基 酸 的 
目 提 高 到 77.2%( 标准 方式 结合 
会 有 所 提高 (77.9%~80.6% )。 


























在 这 一 研究 中 ， 通 过 人 在 输 出 层 引 人 另 一 新 的 特征 ， 提 疝 了 顶 测 的 忻 能。 彼得 


森 提 出 了 一 种 名 为 “输出 扩张 ”( output expansion) 的 方法 。 利 用 该 方法 ， 了 网络 
不 但 预测 输 人 窗 中 央 的 那个 氨基 酸 的 “级 结构 ， 而 且 同 时 预测 邻近 残 基 的 结构 。 








这 一 思路 与 早期 的 思路 有 关 ， 即 通过 训练 隐 含 规则 来 构建 网 络 结构 ， 并 利用 隐 
含 规则 进一步 限定 网 络 权重 ， 以 利于 提高 网 络 模 地 的 推广 性 能 。 
用 于 预测 通货 汇率 ( 如 美元 兑换 日 元 ) 的 网 
预算 杰 字 或 其 他 与 原始 输出 相关 的 特征 ， 其 预测 结果 可 能 会 改善 。' 1 这 种 思想 也 
称 为 学 习 多 相关 任务 或 多 任务 学 习 。! 5 : 同时 学 习 多 个 相关 任务 的 网 络 ， 可 以 利 








络 ， 如 果 必 须 同时 用 于 预测 美 














用 这 些 任务 的 相关 信息 作为 推断 参考 ， 使 学 习 过 程 更 理想 。 
在 蛋白 质 一 级 结构 预测 中 ， 邻 近 残 基 的 结构 类 别 无 疑 与 待 预 测 残 某 相 关 。 而 
其 他 隐 含 线索 还 包括 残 基 的 表面 空间 倾向 〔( 巾 PDB 中 的 结构 数据 计算 得 到 ) 或 通 





过 特定 朴 水 性 标 度 得 到 的 残 基 杖 水 性 


6.4 fe SARAH SSO a TN 








无 论 是 在 原核 生物 还 是 在 真 核 


上 物 中 ， 信 号 肽 都 控制 着 儿 乎 所 有 人 屁 白 质 到 分 
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这 通路 的 “和 人口 "。!54220740 它们 位 于 氨 某 酸 序 询 的 N 端 ， 在 蛋白 质 转 座 到 细胞 
BHARD 

由 于 存在 大 量 未 经 处 理 的 数据 ， 以 及 在 重组 系统 中 喝 有 效 地 生产 沾 白 质 的 商 
业 需 要 ， 信 号 肽 及 其 剪 切 位 点 的 自动 识 世 引起 人 们 的 强烈 兴趣 。 人 们 认为 ， 在 所 
有 组 织 中 ， 在 许多 不 同 种 类 的 蛋白 质 中 ， 指 引 蛋 白质 进入 分 变通 路 的 机 制 是 相似 
的 。'2%1 但 识别 问题 在 某 种 程度 上 的 确 具 有 组 织 特异 性 。 使 用 神经 网 络 的 预测 方 
法 将 草 兰 氏 阳性 细 匡 、 革 兰 氏 阴性 细菌 以 及 真 核 生物 区 别 对 待 ， 已 证 明 能 获得 更 
TERA. UO 洲 自 不 同 蛋 白质 的 信号 肽 ， 并 不 其 有 严格 的 保守 序 
列 一 一 实际 上 ， 它 们 的 序列 相似 性 相当 低 。 但 是 ， 它 们 共同 拥有 带 7~15 个 踊 水 性 
TEMELE (OKA), ERENER ERRIRE, REYNA N 
面 的 3~7 个 具有 极 性 的 《 绝 大 多 数 不 带 电 ) 氨基 酸 。 

信号 肽 自动 识别 问题 以 及 其 他 与 “位 点 ”相关 的 系列 分 析 ，- - 般 有 两 条 相互 
独立 的 解决 思路 ;或 者 直接 预测 位 点 ， 或 者 将 两 种 不 同 区 域 中 的 氨基 酸 划 分 为 两 
种 类 别 。 在 后 面 一 条 恩 路 中 ， 所 有 序列 的 氨基 酸 被 分 为 剪 切 位 点 和 非 前 切 位 点 。 
由 于 大 多 信号 肽 长 度 小 于 40 个 人 氨基酸， 所 以 在 分 析 中 只 考虑 前 60~80 个 氨基 酸 片 
断 。 当 然 ， 氨 基 酸 也 可 按 属 于 信号 序列 还 是 属于 成 熟 蛋白 序列 各 以 分 类 。 在 下 而 
的 介绍 中 ， 这 两 种 分 类 策略 被 结合 使 用 ， 并 世 为 补充 信息 。 由 于 功能 位 点 的 核 测 
是 局 域 作用 的 ， 所 以 尽 可 能 使 用 较 小 的 窗口 ; 而 在 区 域 荔 能 匹配 的 预测 中 ， 为 取 
BR HMMA, BHR AWA, 


6.4.1 SignalP 预 测 程序 


在 SignalP 预 测 程序 中 ,0%1 所 提 太 的 两 种 类 型 的 神经 网 络 为 序列 中 的 每 一 个 
氨基 酸 设 定 了 取 值 在 【0, 1 ] 的 不 同 分 值 。S 值 ， 即 信号 肽 / 非 信 号 肽 神经 网 络 的 
输出 ， 可 认为 是 对 每 个 氨基 酸 属于 信号 肽 的 概率 的 估计 ; CHL, HIST A 
经 / 非 前 切 位 点 神经 网 络 的 输出 ， 可 认为 是 对 每 个 氨基 酸 是 成 熟 蛋白 质 的 第 一 个 残 
基 的 概率 的 估计 ( 值 为 +1 的 位 置 对 应 前 切 位 点 所 在 )。 

在 图 6-5 中 ,给 出 了 信号 肽 的 C 值 和 $ 值 的 两 个 例子 。 带 有 典型 前 切 位 点 的 信 
号 肽 的 分 值 曲 线 如 图 6-5A 所 示 。 其 中 C 值 曲线 有 一 个 尖峰 ， 其 位 置 对 应 于 S 值 曲 
线 的 拐点 位 置 。 也 就 是 说 ， 对 于 C 值 及 S 值 ， 该 例子 的 识别 结果 都 是 正确 的 。 另 外 
一 些 非典 型 俩 子 的 曲线 则 形 如 6-5B 所 示 ， 其 中 C 值 曲线 星 多 峰 形态 。 

在 该 程序 中 ， 数 据 集 被 分 为 5 个 子 集 。 依 照 交叉 验证 值 ， 对 每 个 预测 问题 以 及 
各 种 组 织 类 型 ， 选 择 5 个 相互 独立 的 神经 网 络 。 将 这 5 个 神经 网 络 输出 值 做 平均 即 可 
得 到 每 个 样本 的 C 值 和 S 值 。 这 样 ， 对 于 有 三 种 组 织 类 型 的 实际 问题 ， 每 个 分 值 都 
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包含 了 15 个 神经 网 络 的 输出 信息 。 信 号 肽 的 识别 ， 从 另 一 个 角度 说 明了 对 神经 网 络 





输出 结果 进 行 后 期 处 理 的 重要 性 ， 以 及 使 用 好 的 编码 方式 可 提高 网 络 的 整体 性 能 。 
使 用 非 对 称 窗 是 解决 C 值 问题 的 最 好 方法 。 在 非 对 称 窗 中 ， 剪 切 位 点 上 游 的 氨 





基 酸 数 多 于 下 游 的 氨基 酸 数 : 上 游 取 15 个 氨基 酸 ， 下 游 取 2~4 个 氨基 酸 。 这 与 剪 切 位 








点 位 置 的 模式 信息 作为 信号 肽 序列 的 标识 ) 相对 应 。! 1 而 使 用 对 称 窗 ， 可 以 从 
整体 上 更 好 地 解决 S 值 问题 ， 央 为 在 识别 信号 肽 /成 熟 蛋 白 的 序列 特征 差别 上 ， 对 称 











窗 的 性 能 显然 更 好 。 在 人 类 序列 中 ， 窗 长 取 27; 在 大 肠 杆 菌 的 序列 





EGFR_HUMAN: 表皮 生长 因子 受 体 前 体 
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B WEA POE 


图 6-5 WATIE SRO ANAM RA 
AP GAT RAS MB ENC (AMERMAR) 值 ，S 值 CSIR 


经 网 络 输出 ) 值 ，Y 值 


《S 值 和 C 估 相 结合 的 筋 切 位 点 打分 ) 值 ，Y = J CAS, 。C 值 和 s 值 是 用 数据 的 不 同 子 集训 练 的 5 个 神经 网 络 
输出 的 平均 。 紧 接 在 前 切 位 点 后 面 的 那个 位 置 ， 即 成 训 生 白质 的 第 一 个 残 基 位 置 ，C 值 较 大 。 真 实 的 剪 切 


位 点 的 位 置 用 箭头 标 出 。 在 图 A 中 ， 使 用 C 值 或 S 值 ， 序 列 的 所 有 位 置 都 被 正确 闫 测 


。 在 图 B 中 ， 有 两 个 位 


点 的 C 值 大 于 0.5。 因 此 如 果 只 依靠 C 值 的 最 大 取 值 原则 ， 将 无 法 预 测 出 正确 的 前 切 位 点 ， 而 使 用 Y 值 就 可 以 


正确 预测 出 前 切 位 点 位 置 。 








118 生物 信息 学 


6.5 


由 于 在 大 多 数 伴 本 序列 中 ， 剪 切 位 点 只 有 … 个 ， 所 以 当 每 个 位 置 用 C 值 表示 
时 ， 不 必要 求 作为 匹配 标准 的 截断 值 ( 例如 取 0.5 ) 是 固定 的 。 把 C 值 取 值 最 大 的 
位 置 视 做 信和 怠 肽 的 剪 切 位 点 ， 并 计算 此 时 剪 切 位 点 被 正确 预测 的 序列 数 占 被 预测 
序列 总 数 的 百分比 值 ， 也 可 以 在 序列 水 平 上 评价 C 值 神经 网 络 的 性 能 。 早 期 的 权 
重 矩 阵 方法 OP) 也 是 如 此 计算 性 能 指标 。 在 序列 水 平 上 评估 神经 网 络 输出 ， 使 
络 的 性 能 有 所 提高 。 即 使 C 值 曲线 大 峰值 或 截断 值 上 有 多 个 峰值 ， 仍 可 在 C 值 最 大 
的 位 置 识别 出 真实 的 筋 切 位 点 。 

如 果 C 值 的 几 个 峰值 强度 相当 ， 可 以 参照 S 值 曲线 识别 出 正确 的 剪 切 位 点 ， 
为 C 值 曲线 的 峰值 处 恰恰 对应 信和 号 肽 区 域 与 非 信 号 肽 区 成 的 结合 处 。 最 好 的 方式 
就 是 取 C 值 和 S 值 的 平滑 养分 的 几何 平均 值 作为 综合 的 打分 值 ， 从 而 定义 Y 值 : 






























































Y, = JOAS; (6.2) 


其 中 As3 是 第 ;个 位 置 的 前 4 个 位 置 的 S 值 的 平均 值 与 第 ;个 位 置 的 后 d 个 位 置 的 S 值 
的 平均 值 的 养 : 








d-l 

-Ss J- s.] (6.3) 
j=0 

与 C 伞 相 比 ，Y 值 提高 了 序列 水 平 上 的 预测 性 能 ( 百分比 正确 率 )， 但 没有 提 

高 对 单独 位 点 的 预测 性 能 ( Ce )。 网 6-5B 给 出 了 C 值 预测 错误 而 Y 值 预测 正确 的 例 

Fe 











有 趣 的 是 ， 这 种 方法 也 适用 二 检测 蛋氨酸 转录 起 始 位 点 的 标注 错误 。 对 
SWISS-PROT 数 据 库 中 大 量 较 长 的 信 叶 肽 的 研究 发 现 ， 在 靠近 N 端 5~15 个 氨基 酸 
的 序列 位 置 常 出 现 第 二 个 蛋氨酸 。 “2 图 6-6 显 示 了 对 人 类 高 血压 蛋白 原 序列 的 
SignalP 预 测 结果 。 在 N 端 ， 序 列 的 S 值 很 低 ， 但 在 序列 的 第 二 个 蛋氨酸 位 置 之 后 ， 
S 值 增 大 到 合理 的 水 平 。 这 一 预测 结果 明显 暗示 该 序列 的 转录 起 始点 标注 错误 。 


DNA/RNA 序 列 分 析 的 相关 应 用 


6.5.1 ”遗传 密码 的 结构 和 起 源 


自 遗 传 密码 规则 首次 提出 后 ，! ”| 为 揭示 遗传 密码 具有 对 称 性 [2%55095141253 
以 及 它 的 进化 历史 92945991 ， 研 究 人 员 做 了 大 量 的 尝试 。 在 这 类 研究 分 析 中 ， 
其 中 20 个 氮 基 酸 的 特性 及 其 相似 性 发 挥 着 重要 的 作用 。 从 系统 和 纠 错 的 角度 来 看 ， 
密码 子 匹 配 与 氨基 酸 的 物理 特性 相关 联 。 三 联 体 中 的 三 个 不 同位 置 与 氨基 酸 的 不 同 
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图 6-6 ”人 类 高 血压 蛋白 原 ( ANGT-HUMAN ) 序列 的 SignalP 预 测 


在 属于 信号 肽 的 残 基 位 置 上 S 傅 较 大 ， 而 C 和 Y 值 在 剪 切 位 点 的 下 个 位 置 


意 ,5 在 第 MAP TERMAN AE LRE io 





+1 位 点 取得 最 大 值 。 注 


特性 相对 应 。 第 一 个 编码 位 置 与 氨基 酸 的 生物 合成 途径 相关 , OPS 也 与 “原始 汤 ” 
(primordial soup) 合成 实验 所 揭示 的 进化 相关 。[ 423] 第 二 个 编码 位 置 与 氨基 酸 


的 咏 水 性 相关 。!! 2565 1 退化 的 第 三 个 位 置 则 与 分 子 重量 或 氨基 酸 的 大 小 
Ko MO) 生物 体 通过 两 种 万 式 利用 这 些 特性 进行 编码 纠 错 。 其 一 是 退化 与 蛋白 质 
中 氨基 酸 的 数量 多 少 相关 ， 降 低 了 随机 突变 导 敏 氨基 酸 改变 的 几率 。-3? ATEH 
似 氨基 酸 的 密码 子 相似 ， 从 而 降低 了 突变 导致 蛋白 质 结构 变异 的 几率 。[ 3651 
研究 遗传 密码 结构 的 神经 网 络 方法 新 颖 而 独特 ， 整 个 分 析 方 法 不 带 偏 倚 ， 并 














完全 由 数据 驱动 。' ”1 神经 网 络 方 汰 直接 依据 密码 和 氨基 酸 之 间 的 遗传 密码 标准 

















关系 。 


匹配 关系 ( 图 6-7 ) HEMT. Ak, AMSAT PRE SN 








学 习 遗 传 密码 的 神经 网 络 ， 其 输入 层 为 1 个 核 音 酸 三 联 体 ， 输 出 层 为 相应 编码 
的 氨基 酸 。 这 样 ， 输 入 层 有 64 种 三 联 体 输 入 类 型 ， 输 出 层 有 20 种 氨基 酸 ( 如 图 6-8 
所 示 ) 输入 、 输 出 是 稀疏 编码 的 ， 其 中 12 个 节点 编码 输入 ，20 个 节点 编码 输出 。 























的 神经 网 络 相对 难 训练 得 多 。 饶 究 中 采用 上 自 适应 让 


带 有 3 个 或 4 个 中 介 层 节点 的 神经 网 络 相 对 容易 训练 ， 而 带 有 2 个 中 介 层 节点 


练 模式 ， 才 可 能 出 现 最 小 的 神 
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mut 7 ucu UAU 
une uce å UAC 
UUA ENAM UCA AM UAA 
UUG uce UAG 
cuu ecu CAU 
cuc eee Ay CAC 
CUR ZAM CCA CAA 
CUG cece MER CRAG 





RUU 


A AC AAU AGU a 
Ky ace tye aac ale gam 
AUA SEM ACA sam AAA p AGA 
AJG + 
AUG oe ACG AAG oP hoe AGG 
去 - 
GUU ecu GAU A GGU 
GUC ece £ GAC Ramm SCC q 
ii 


GUR GCA wam GAA GGA 
WER aca GAG ea GGG PaM 
Sah 


GUG 
图 6-7 ”标准 遗传 密码 


编码 同一 伺 基 酸 的 多 种 三 联 体 密码 用 问 REAVER. 


经 网 络 ( 带 2 个 中 介 层 节点 ) PE 研究 发 现 ， 使 用 传统 的 反 向 传播 算法 训练 的 网 
络 天 法 达到 这 样 的 最 小 规模 。 

训练 前 镇 网 络 一 般 采 用 后 向 传播 算法 ， 其 月 标 在 于 获得 较 低 的 网 络 误 差 王 ， 
但 分 类 误差 Ec 并 不 一 定 很 低 。 所 以 训练 网 络 以 获得 下 c=0.0 的 结果 很 困难 。 存 一 些 
文献 中 ， 提 及 了 一 些 网 络 训练 策略 以 获得 较 低 的 分 类 误差 。 一 种 简单 有 效 的 方法 
就 是 对 易 错 分 类 的 样本 采用 较 高 的 学 习 率 ， 而 对 易 正 确 分 类 的 样本 采用 较 低 的 学 
习 率 。 在 最 初 的 学 习 阶 段 ， 大 多 数 样本 容易 错 分， 因此 网 络 的 学 习 率 较 高 ， 从 而 
大 大 降低 了 网 络 的 误差 于。 在 后 继 的 训练 过 程 中 ， 仅 仪 对 难 学 习 的 样本 采用 较 高 
的 学 习 率 ， 从 而 引信 了 曲 声 使 误差 比较 容易 地 过 渡 到 较 低 的 平稳 态 。 

另 一 种 有 效 的 方法 是 改变 不 同类 别 样本 的 出 现 频率 ， 从 前 使 样本 训练 更 为 平 
衡 。 对 于 泪 传 密码 ， 这 意味 着 对 应 每 种 氨基 酸 ， 万 论 原始 简 并 编码 汕 现 多 少 种 密 
码 子 ， 输 入 神经 网 络 的 密码 子 的 数量 应 该 相同 。 因 此 ， 在 训练 集中 ， 蛋 氨 酸 密码 
子 应 该 出 现 6 次 ， 而 半 胱 氮 酸 密码 子 应 该 出 现 3 次 。 这 样 ， 训 练 集 的 密码 子 数 且 就 
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图 6-8 ”学习 标准 遗传 密码 的 神经 网 络 结构 


这 个 神经 网 络 具有 12 个 输入 节点 ，2 { 或 更 多 ) 个 中 介 层 节点 和 20 个 输出 节点 。 输 入 层 用 3 个 4 比特 大 
小 的 二 进 制 数 字 捉 米 编码 核 蔡 酸 三 联 体 。 对 应 腺 嗓 叭 编码 为 0001， 胞 哮 喧 编码 为 0010， 乌 嗓 岭 编 而 为 0100， 
尿 感 壹 编码 为 1000。 输 出 层 用 类 似 方法 编码 氨基 酸 ， 例 如 再 氨 酸 编码 为 10000000000000000000， 半 胱 氨 酸 
编码 为 01000000000000000000 等 。 中 介 技 和 输出 层 节点 的 神经 元 激活 值 取 0.0 到 1.0 之 间 的 实数 。 采 用 平衡 
学 习 的 皮 向 传播 并 法 1% 来 调整 神经 网 络 的 参数 (12 x 2+2 x 20=64 个 权重 ，2+20=22 个 岗 值 )。 在 这 种 算 
法 中 ， 对 于 每 个 密 妈 了， 训练 特 坏 次 数 与 和 该 氢 基 酸 相关 的 密码 子 数 最 成 反比 。 因 此 ， 平 均 而 言 ， 蛋 氨 酸 
的 训练 循环 数 是 亮 氮 酸 的 6 倍 。 训 练 过 程 中 ， 如 果 输 出 层 节 点 的 输出 值 比 其 他 节点 的 输出 都 大 (“ 胜 者 通 吃 ” 
原则 )， 就 说 明 学 与 过 程 成 功 。 每 一 训练 周期 中 ， 密 友子 都 是 以 随机 顺序 出 现 的 ， 


由 61 个 扩大 为 186 个 ， 每 一 个 周期 的 训练 时 间 也 变 为 原来 的 3 售 。 
获得 低 分 类 谋 差 的 更 为 有 效 的 方法 是 采用 自 适 应 的 训练 集 ， 依 据 样本 是 否 被 
现 有 的 神经 网 络 止 确 分 类 这 一 标准 来 决定 是 否 保留 这 些 训练 样本 。 这 一 方法 必 将 
为 学 习 过 程 引 入 更 多 噪声 ， 以 避免 局 部 最 小 。 通 常 在 每 个 样本 训练 结束 而 不 是 在 
整个 训练 周期 结束 时 更 新 网 络 参数 ， 就 能 在 训练 过 程 中 引入 噪声 。 下 一 步 就 是 在 
每 一 训练 周期 中 ， 牙 倒 训 练 样本 的 次 序 。 采 用 自 适应 方法 ， 从 样本 集中 顺序 随机 
地 挑选 样本 ， 更 新 网 络 参 数 ， 便 不 再 存在 训练 周期 的 概念 。 为 了 增加 不 易学 习 的 
样本 出 现 的 频率 ， 每 个 错 分 样本 会 被 重新 放 人 样本 集中 ， 用 以 替代 其 中 的 一 个 训 
练 样本 。 为 了 确保 样本 没有 遗漏 ， 仅 仅 样 森 集合 的 一 部 分 可 以 进行 样本 交换 。 经 
过 是 够 的 训练 学 习 后 ， 可 以 保证 每 个 样本 都 被 利用 ， 并 且 不 易学 习 的 样 丰 被 用 来 
训练 网 络 的 次 数 更 多 。 综 合 而 言 ， 该 过 程 如 下 : 
1. 初始 化 训练 样 不 集 的 第 一 部 分 和 第 一 部 分 ; 
2. 从 样本 集中 随机 选择 一 个 样本 ， 将 其 输 人 到 神经 网 络 中 ; 
3. 使 用 反 向 传播 算法 训练 神经 网 络 ; 
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4. 如 果 该 样 木 分 类 正确 ， 则 四 到 第 二 步 继续 进 行 ; 
5. 如 果 该 样本 分 类 错误 ， 则 将 其 放 人 样本 集 的 第 二 部 分 ， 并 随机 替换 其 中 的 


一 个 样本 ; 








6. 重复 该 过 程 ， 自 全 下 .=0。 

使 用 自 适应 的 训练 策略 可 以 成 功 地 训练 带 有 2 个 隐 层 节点 的 神经 网 络 。 训 练 
过 程 中 ， 网 络 建立 了 遗传 密码 的 内 部 结构 。 编 码 结构 的 内 部 表示 由 2 个 中 介 层 节 
点 的 输出 确定 ， 很 容易 在 平面 上 可 视 化 。 神 经 网 络 将 61 个 表示 氨基 酸 的 编码 密码 
子 的 12 维 向 量 映 射 为 平面 中 的 61 个 点 。 当 网 络 学 习 成 功 时 ，20 个 输出 节点 便 能 够 








将 这 些 点 线性 分 开 
图 6-9 表 示 了 











经 网 络 通过 自 适 应 反 向 传播 算法 建立 与 遗传 密码 相对 应 的 内 


部 结构 。 每 个 密码 子 对 应 平 曾 中 以 该 氨基 酸 第 一 个 字符 表示 的 一 点 (w, y) Y 


练 前 ，61 个 点 在 ( 
Sh, beth oy TE 
神经 网 络 确定 





0.5, 0.5) 附近 集中 。 在 训练 过 程 中 ， 这 些 点 以 环形 的 轨迹 彼此 
圆 环 边界 上 。 
了 3 组 密码 子 ， 分 别 对 应 于 图 形 区 域 的 3 个 部 分 ( 见 图 6-9 )。 后 来 

















的 研究 发 现 ， 这 3 组 密码 子 将 由 GES 度 量 的 转换 自由 能 `“*] 划分 为 3 个 能 景区 间 : 


[-3.7,-2.6], 
三 类 要 求 的 起 杂志 


-2.0, 0.2 ] 和 [ 0.7, 12.3] (kcal/mol) ( 见 表 6-2 )。 惟 一 不 符合 这 





性 氨基 酸 一 一 精 氨 酸 ， 它 是 遗传 密码 中 的 一 个 例外 。[33954] 编 


但 精 氨 酸 的 密码 子 数 量 与 自然 界 恤 白 质 中 大 量 出 现 的 精 氨 酸 数量 着 矛盾 的 。 490] 精 





氨 酸 在 遗传 密码 中 
于 问 便 的 倾向 性 。 


的 地 位 很 特 味 。- -螺旋 结构 中 ， 它 具有 明显 的 与 朴 水 性 残 基 位 
[36] 神经 网 络 将 精 氮 酸 划 人 过 渡 类 型， 不 属于 3 种 类 型 。 训 练 后 





的 神经 网 络 将 3 个 终止 密码 子 映 射 到 与 相似 密码 子 相 邻 的 位 置 (x, y) UAA, UAG 
邻近 Tyr CY) ; UGA 邻 近 Trp (W) ( 图 中 未 标 出 )。 
神经 网 络 至 少 需 要 2 个 中 介 层 节点 才能 很 好 地 学 习 遗 传 密码 映射 ， 这 说 明 遗 


传 密码 本 质 上 是 非 

















线性 的 。 在 分 类 问题 中 ， 这 就 意味 着 和 遗传 密码 是 非 线性 可 分 的 。 


这 一 事实 适用 于 大 多 数 研究 人 员 使 用 的 核 攻 酸 的 稀 咬 编 码 。 对 于 以 寻找 核 攻 酸 与 
氨基 酸 之 间 关系 为 月 的 的 DNA 或 mRNA 前 体 计算 化 分 析 问 题 ， 无 论 采用 什么 样 的 
算法 ， 都 是 个 卡 线性 问题 。 "2 很 容易 证 明 遗 传 密码 确实 是 非 线性 的 ， 因 为 丝 


氨 酸 的 所 有 密码 子 

















无 法 用 线性 的 方法 与 其 他 密码 子 分 离 。 


与 很 多 其 他 神经 网 络 不 同 ， 这 里 所 训练 的 网 络 的 权重 有 一 个 较 完善 的 结构 














(图 6-10 )。 输 入 层 到 中 介 层 的 连接 权重 的 大 小 反映 了 在 密码 子 特定 位 置 上 的 不 同 








核 苷 酸 的 重要 性 程度 。 有 趣 的 图 ， 第 二 个 密码 子 位 置 的 权重 最 大 ， 其 余 依次 是 第 
一 位 置 和 第 三 位 置 ， 这 与 早期 的 研究 发 现 一 致 。'**] 在 很 大 程度 上 ， 两 个 中 介 层 
节点 分 担 了 分 类 功能 。 左 边 的 节点 受 密码 子 第 二 个 位 置 上 的 A 或 G 碱 基 的 影响 很 
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图 6-9 ”遗传 密码 神经 网 络 的 隐 层 节点 输出 


每 一 点 对 应 编码 61 种 氨基 酸 的 三 联 体 的 二 维 实 值 输出 。 随 机 颖 于 初始 值 的 未 训练 网 络 中 ，61 个 点 都 分 


布 在 矩形 的 中 心 区 域内 。 经 过 7 个 周期 的 训练 后 ， 这 些 点 移动 到 瞬间 局 部 最 小 化 的 位 置 ， 


此 时 ， 隐 层 节 点 


的 输出 赵 于 1， 输 出 层 节点 的 输出 趋 近 于 0。30 个 周期 后 ， 各 点 开始 分 离 ， 各 类 型 集合 开始 带 集 但 仍 有 混合 。 
最 终 ，13 000 个 周期 之 后 ，61 个 密码 子 分 类 聚集 ， 散 布 在 图 环 区 域 上 。 对 应 上 面 的 各 子 图 ， 密 码 子 被 正确 


分 类 的 数量 依次 为 2、6、26 和 61。 


大 ， 右 边 的 节点 受 密 码 子 第 二 个 位 置 上 的 C 或 U 碱 基 的 影响 很 大 。 同 样 ， 密 码 子 


第 一 个 位 置 上 的 A 和 C，G 和 U 分 别 影响 着 这 两 个 节点 。 在 遗传 密码 中 





Fh， 密码 子 第 


三 个 位 置 上 的 C 和 U 对 于 所 有 和 氨基酸 是 等 效 的， 而 A& 和 G 对 于 大 多 数 氨基 酸 (Kie, 
Met 和 Trp 外 ) 也 是 等 效 的 。 神 经 网 络 通过 对 第 三 个 位 置 上 的 两 对 密码 子 分 别 取 正 


值 和 负 值 的 权重 米 处 理 这 类 碱 基 等 价 性 。 
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表 6-2 ”氨基 琶 及 它们 以 GES 标 度 度量 的 转换 自由 能 ( kcal/mol)!" 

















氨基 酸 水 - 泪 密码 子 

Phe 37 UUU UUC 

Mer -3.4 AUG 

Te -3.1 AUU AUC AUA 

Leu -2.8 UUA UUG CUU CUC CUA CUG 
val -2.6 GUU GUC GUA GUG 

Cys 72.0 UGU UGC 

Tip -19 UGG 

Ala -1.6 GCU GCC GCA GCG 

Thr a2 ACU ACC ACA ACG 

Gly -1.0 GGU GGC GGA GOG 

Ser -0.6 UCU UCC UCA UCG AGU AGC 
Pro 0.2 CCU CCC CCA CCG 

Tyr 07 UAU UAC 

His 3.0 CAU CAC 

Gln 42 CAA CAG 

Asn 48 AAU AAC 

Glu 8.2 GAA GAG 

Lys 8.8 AAA AAG 

Asp 9.2 ， GAU GAC 

Arg 123 CGU COC CGA CGG AGA AGG 





GES 度 县 值 将 位 于 三 联 体 第 二 个 碱 区位 置 上 对 应 为 U，A 的 密码 子 与 其 他 密码 子 分 离 ， 留 下 三 联 体 第 二 
个 贼 基 位 置 十 对 应 C，G 的 密码 子 作为 中 间 类 别 对 待 。 转 换 自由 能 是 通过 一 个 六 水 特性 计算 项 和 两 个 订 水 特 
性 计算 项 得 到 的 。 前 者 由 从 人 基 破 的 表面 税 大 小 决定 ， 后 省 反映 由 十 氢 键 作 用 而 产生 的 极 性 影响 和 在 pH=7 的 
条 件 上 将 侧 链 转换 为 中 性 的 能 量 需 求 。 


密码 子 第 二 个 碱 基 位 置 与 氨基 酸败 水 性 之 间 的 关联 关系 非常 基本 ， 昌 具有 一 
个 显而易见 的 优点 ， 即 能 够 使 芒 水 性 氨基 酸 转 变 为 亲 水 性 氨基 酸 的 变异 或 错 翻 译 
的 可 能 性 最 小 化 。 “951 早期 的 遗传 密码 研究 中 ， 密 码 子 的 类 别 是 与 氨基 酸 的 
类 别 相对 应 的 。'552] 这些 类 别 大 多 数 只 与 水 环境 下 多 肘 链 的 折 秋 相 联 系 。 由 于 系 
统 进 化 历史 早 于 细胞 质 的 脂 膜 ，! 3 67334761 在 早期 有 关 蛋 白质 器 官 合成 的 文献 论 
述 中 ， 脂 膜 三 究 尚未 显得 十分 重要 。 由 于 深 受 原始 核糖 体 和 基因 是 如 何 被 附 上 脂 
膜 结构 这 一 问题 由 扰 ， 细 胞 起 源 的 研究 无 法 深信 。5571 布 洛 贝尔 (Blobel) 和 卡 
维 利 亚 - 史 密斯 ( Cavalier-Smith ) 的 观点 是 : 基因 和 核糖 体 具 有 类 脂 质 体 的 泡 状 
表面 结构 ， 从 而 引发 了 中 蛋白 的 插 和 机制。0327] 因而 ， 基 于 脂 类 环境 中 氨基 酸 
的 特性 对 遗传 密码 进行 分 类 看 来 也 是 必要 的 。 
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65.2 ” 真 核 基因 的 识别 和 内 含 子 剪接 位 点 的 预测 


从 20 纪 纪 80 华 代 初 十 始 ， 针 对 新 近 测 序 出 来 的 真 核 生 物 DNA， 产 生 了 各 种 各 
样 用 于 蛋白 质 编码 区 域 识 别 的 产 法 。 康 则 上 有 两 种 相 站 独立 的 方 汰 可 用 于 确定 外 
ETRE: 预测 序列 中 供 休 (donor) MEAE (acceptor)? 位 点 交替 序列 的 位 
Es 或 按照 编码 和 非 编 但 类 别 对 核 版 序列 〈 或 连续 的 核 攻 酸 序 列 片断 ) 进行 分 类 。 








123 


图 6-10 ”训练 后 的 遗传 密码 神经 网 络 输 入 节点 权重 的 图 形 化 表示 


对 应 一 个 碱 基 位 置 ， 学 符 的 高 度 代表 输入 层 节点 到 两 个 中 介 屋 节点 的 权重 之 和 ， 如 果 和 为 负数 ， 字 符 
GES 


@ “acceptor” PEAH EH "BR", DER “receptor” CAE R, A BARR Gt, 
FERRE EMER) PRE, MEN RAR ”一 一 泽 者 注 
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内 含 了 剪接 位 点 区 域 在 15~60 个 核 背 酸 的 范围 内 ， 相 对 具有 较 保 守 的 位 置 模 
式 ; 编码 蛋品 质 的 区 域 ( 外 显 了 ) 相对 较 长 ， 一 般 为 100~150 个 核 苷 酸 ， 对 于 相 
当 一 部 分 真 核 生 物 而 言 ， 这 一 长 度 区 间 是 比较 稳定 的 。 对 于 这 两 类 位 点 ， 模 式 的 
长 度 或 规律 性 直接 影响 了 类 别 检测 的 正确 率 。 i 

一 些 内 含 子 剪接 位 点 序列 非常 靠近 序列 空间 中 的 “重力 中 心 "，[2441 而 另外 

些 则 相当 偏离 一 般 书 中 所 描述 的 统一 的 序列 模式 [ 见 图 1-10 中 对 阿布 属 拟 南 并 
(Arabidopsis thaliana ) 供 体位 点 的 序列 标识 ] 。 同 样 的 ， 特 定 生物 体 的 外 显 子 序 
列 也 或 多 或 少 地 与 一 般 的 阅读 框 模式 相 哆 合 。 编 码 区 域 的 模式 保守 性 也 与 基因 示 
达 水 平 或 蛋白 质 的 氨基 酸 给 成 等 相关 。 特 定 组 织 、 特 定 基因 上 的 编码 蛋白 质 的 密 
人 码 子 共有 明显 的 二 周期 特性 ， 这 种 周期 性 表现 为 在 三 个 密码 子 位 置 |. 的 有 偏 频率 
分 布 (biased frequency )。!”53051 在 诸如 细菌 这 样 的 物种 中 ， 这 种 频率 倾向 性 在 
第 一 位 置 上 最 明显 ; 而 对 于 哺乳 类 本物 ， 这 种 频率 倾向 性 在 第 位置 上 最 明显 
( 见 图 6-11 )。 富 含有 晴 氨 酸 、 丝 氨 酸 和 精 氨 酸 的 蛋白 质 常常 会 产生 阅读 框 错误 ， 这 
与 它们 所 包含 的 密码 子 在 第 一 个 和 第 二 个 位 置 上 偏离 标准 模式 有 关 。 但 在 核糖 体 
转录 mRNA 、 人 确定 编码 陪读 框 的 过 程 中 ,阅读 框 的 功效 是 与 密 何 子 在 三 个 位 置 上 
出 现 的 概率 有 关 的 ， 而 不 是 单单 由 密码 子 的 平均 使 用 频率 决定 。[55] 网 6-11 显 示 
TMH (Enterobacteria )、 哺 乳 动物 、 秀 丽 线虫 和 植物 阿布 属 拟 南 并 的 基因 编 
公 区 域 中 ， 二 联 体 编码 各 位 置 上 的 核 背 酸 分 布 偏 倚 。 

在 利用 神经 网 络 的 方法 预测 内 含 子 剪 接 位 点 的 研究 中 ， 发 现 供 休 和 接纳 体位 
点 序列 模式 和 相关 编码 区 域 的 序列 模式 间 具 有 互补 联系 。-'” 1 容易 检测 的 外 显 子 
所 对 应 的 剪接 位 点 模式 不 明显 ， 反 之 亦 然 。 尤 其 是 作为 编码 区 域 标识 的 非常 短 的 
外 显 子 ， 其 标识 信号 弱 而 剪接 位 点 模式 却 很 明显 。 这 种 联系 的 强 弱 又 受到 各 个 物 
种 间 互 不 相同 的 内 含 子 长 度 分 布 的 影响 。 

在 基于 神经 网 络 的 预测 算法 NetGene Pl 中 ， 已 经 利用 了 剪接 位 点 与 外 显 子 
模式 的 开 补 关系 ， 这 种 算法 将 两 个 局 部 剪接 位 点 网 络 与 一 个 窗 长 为 301 个 核 昔 酸 
的 外 显 子 预测 网 络 相 结合 。 这 一 算法 在 相当 程度 上 降低 了 预测 的 假 阳 性 率 。 而 月 ， 
在 编 公 和 非 编码 序列 片断 的 过 渡 区 域 中 ， 当 外 显 子 预测 网 络 输出 暗示 该 预测 点 可 
能 为 剪接 位 点 时 ， 这 种 算法 可 相应 降低 剪接 位 点 网 络 的 阔 值 ， 进 而 增强 对 较 弱 的 
剪接 位 点 模式 的 蔬 测 性 能 ( 详 见 6.5.4 节 )。 


6.5.3 ”综合 多 种 特征 预测 基因 结构 


综合 使 用 多 个 特征 提取 器 来 答 测 复杂 对 象 的 各 种 信号 模式 ， 在 模式 识别 理论 
中 应 用 已 入 。 其 中 ，-~… 些 基于 神经 网 络 结构 的 整合 算法 发 挥 了 重要 作用 ， 如 最 早 
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图 6-11 ”四 类 不 同 物 种 的 序列 密码 子 分 布 


项 图 分 别 是 肠 细菌 和 哺乳 动物 ， 底 图 分 别 是 秀丽 线虫 和 阿布 属 拟 南 闪 。 肠 细菌 的 基因 在 密码 子 的 第 一 
个 碱 基 位 置 上 有 具有 较 强 的 倾向 性 ， 而 哺乳 动物 在 密码 子 的 第 三 个 碱 基 位 置 上 的 偏 集 最 明显 。 


的 GRAIL 利 GeneParser 程 序 。 

GRAIL 程 序 是 基于 神经 网 络 的 信号 特征 整合 系统 ， 用 以 识别 编码 区 域 。1991 
年 ， 该 程序 首先 将 7 种 度量 特征 整合 到 一 个 预测 网 络 中 ， 从 而 更 好 地 预测 出 编码 
区 域 。!5281 后 来 的 GRAIL 型 程序 可 以 对 离散 的 编码 区 域 进行 预测 ， 而 木 必 像 早 
期 程序 那样 采用 男 定 长 度 的 滑动 窗 来 预测 编码 区 域 。i5*1GRAIL 了 I 型 程序 可 以 将 
待 预测 的 编码 区 域 的 长 度 作为 网 络 的 -个 输入 特征 ， 从 而 可 以 针对 较 长 或 较 短 的 
外 显 子 修改 受 长 度 影响 的 其 他 特征 度量 值 。 

多 年 来 ，GRAIL 程 序 的 性 能 不 断 提高 ， 其 原 内 在 于 信号 特征 检测 的 不 斯 改良， 
而 不 在 于 神经 网 络 的 不 断 复杂 化 。 而 进行 比较 时 ， 网 络 结构 一 直 使 用 单 隐 层 的 
MLP， 利 用 反 向 传播 学 习 算法 进行 训练 。 其 中 一 种 性 能 最 好 的 特征 提取 器 ， 是 采 
用 15 阶 非 齐 次 马尔 可 夫 链 对 DNA 中 的 6 元 组 进行 特征 提取 。[29] GRAIL 程 序 不 但 
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可 用 于 编码 区 域 训 别 ， 也 可 用 于 其 内 建 模 (外 显 子 组 装 )， 模 型 误差 的 检验 和 修 
正 ，CpG 岛 检测 及 Poll 局 动 子 和 多 涌 腺 级 酸 位 点 的 识别 。 

GeneParser 程 序 ! ”1 通过 神经 网 络 对 外 星子 /内 含 子 和 剪接 位 点 模式 特征 进行 
加 权 ， 估 计 弃 列 片断 属于 不 同类 章 〈 前 端的 、 中 间 的 或 后 端的 外 显 子 或 肉 售 子 ) 
的 对 数 似 然 度 。 然 后 可 利用 这 些 数值 ， 使 用 动态 规划 算法 ， 了 寻找 外 显 子 和 内 合子 
的 组 合 ， 使 得 似 然 申 数 最 大 。 几 这 种 方法 ， 可 以 很 快 地 获得 多 个 次 优 解 。 每 个 次 
优 解 表征 一 处 外 显 子 一 内 含 子 的 转换 接合 。 研 究 人 员 还 采用 碱 基部 分 蔡 代 和 阅读 
PEN TRUARE, OTA IRAE ETE, RAER TERE AE 
国内 保持 较 好 的 顶 测 性 能 的 。 

动态 规划 (DP) 算法 可 用 于 精确 识别 基因 组 DNA 序 列 中 的 内 部 外 显 子 和 内 
含 子 。GeneParser 程 序 首先 根据 前 接 位 点 存在 可 能 性 和 外 显 子 、 内 含 子 特 掉 性 度 
垦 值 (包括 密码 子 使 用 频率 、 局 部 组 成 复杂 性 、 六 万 织 频率 、 长 度 分 布 、 周 期 不 
对 称 性 等 ) 来 为 序列 打分， 然后 将 这 些 信息 组 织 起 来 供 动态 规划 算法 处 理 。 
GeneParser 程 序 引 人 动 态 央 划算 法 时 ， 要 满足 外 显 子 、 内 合子 必须 相 邻 目 无 重合 
的 约束 ， 并 从 中 找 出 满足 约束 条 件 的 综合 评价 分 数 最 商 的 外 显 子 、 内 含 子 组 合 。 
各 分 类 过 程 的 网 络 权重 是 由 训练 简单 的 反馈 神经 网 络 使 预测 正确 率 最 大 而 得 到 
的 。 人 研究 人 员 兽 经 尝试 在 总 共 158 691 个 碱 基 的 人 类 基因 序列 中 ， 使 用 包含 150 个 
内 部 外 显 子 的 56 个 基因 片 断 米 如 练 该 系统 。 在 使 用 训练 数据 对 网 络 进行 测试 时 ， 
GeneParser 程 序 对 外 总 子 的 识别 率 为 35% ， 对 编码 核 匠 酸 的 识别 率 为 86% ， 仅 有 
13 多 的 非 外 显 子 碱 其 被 顶 测 为 编码 碱 基 ， 对 应 外 显 子 识别 的 相关 系数 值 为 0.85。 
由 子 网 络 权 重 学 习 算 尖 较为 简易 ， 网 络 对 新 的 伴 本 数据 几乎 具有 同样 好 的 推广 性 
能 。 


65.4 ”结合 局 部 和 全 局 信息 预测 内 合子 剪接 位 点 


使 用 编码 / 非 编码 区 域 预 测 与 剪接 位 点 预测 相 结合 的 NetGene 预 测算 法 进行 研 
究 时 ， 研 究 人 员 发现 了 剪接 位 点 模式 与 编码 区 域 模式 的 互补 依 帧 关系 。[2211991 
年 首次 开发 的 NetGene 程 序 仪 仅 用 于 训练 处 理 人 类 序列 。1992 全 后 ， 这 个 程序 开 
始 具 有 因特网 支持 功能 ( netgene@cbs.diu.dk )。 这 -一 方法 将 三 个 独立 的 网 络 联合 
在 一 起 : 一 个 用 玉 预 测 编码 / 医 编 码 广 域 的 全 局 神经 网 络 调整 善 两 个 局 部 的 供 体 和 
接纳 体位 点 预测 网 络 的 匹配 阔 值 。_: 个 网 络 的 窗 长 依次 为 301 、15 和 41bp。 用 从 
外 主子 到 内 会 子 认 域 过 渡 时 的 全 局 优 号 突变 调整 局 部 剪接 位 点 预测 网 络 的 实际 阔 
值 ， 而 不 是 使 用 固定 阅 值 。 以 上 做 法 的 日 的 在 子 提高 供 体 、 接 纳 体位 点 的 正确 预 
测 比 率 。 在 外 显 子 预测 网 络 输出 突然 下 降 的 区 域 ， 供 体位 点 册 现 的 可 能 性 应 该 增 
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大 ， 接 纳 体位 点 出 现 的 可 能 性 应 该 碱 小 。 而 在 外 显 子 预测 网 络 输出 突然 上 升 的 区 
域 ， 情 况 正 相反 。 在 外 显 子 预 测 网 络 输出 变化 不 明显 一 一 比如 状态 值 持续 为 高 
(处 于 外 显 子 区 域 中 ) 或 状态 值 持续 为 低 (处 于 内 含 子 区 域 、 非 转录 外 显 子 区 域 
和 基 央 间 的 DNA 区 域 中 ) 的 区 域 ， 为 了 降低 假 阳 性 率 ， 需 要 提高 相应 剪接 位 
点 预测 网 络 的 预测 可 信和 度 。 
实际 操作 中 ， 用 给 定位 置 右 端 序列 的 网 络 输出 之 和 减 去 左 端 序列 的 网 络 笨 出 
之 和 ， 再 用 该 差 值 除 以 输出 节点 的 总 个 数 ， 所 得 值 作为 输出 层 神经 元 输出 的 差分 
值 ， 可 以 预测 编码 / 非 编 码 区 域 的 转换 边界 。 为 了 减少 计算 中 同时 使 用 的 外 显 于 和 
内 含 子 区 域 位 置 点 的 个 数 ， 求 和 范围 的 大 小 设 定 为 75 个 碱 基 一 一 训练 集中 内 部 外 
显 子 的 长 度 衬 均值 的 一 半 ， 从 市 使 内 含 子 的 3’ 末 端的 输出 差分 值 趋 近 于 +1， 而 5 
末端 的 输出 差分 值 趋 近 于 -1， 以 便于 更 好 地 检测 编码 / 非 编码 区 域 。 
图 6-12 中 给 出 了 测试 集中 的 编码 / 非 编 码 区 域 信号 的 平均 特征 值 ， 差 分 值 A 和 
输出 值 超过 0.25 的 供 体 、 接 纳 体位 点 的 信号 值 ， 这 些 数值 取 自 GenBank 的 
HUMOPS 序 列 。['”! 注意 处 于 内 含 子 区 域 和 序 记 的 非 转 录 区 域 中 的 一 些 局 部 也 会 
显示 出 类 似 外 显 子 的 输出 值 特性 。 

在 剪接 位 点 预测 网 络 输出 阐 值 可 调整 的 算法 中 ， 常 用 下 列表 达 式 评估 外 显 子 
网 络 输 出 值 占 整 个 独立 剪接 位 点 顶 测 网 络 的 输出 O 的 比重 ;如果 
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Oak> epAt ep (64) 
TWA BZA RA DY REE S ange 
本 汉人 > esdt+c, (6.5) 


则 识别 结果 为 剪 切 接纳 体 信号 。 其 中 差分 值 A 的 计算 方法 如 上 。 常 数 cp 和 c, 等 于 
通常 的 网 络 输出 截断 阔 值 (cutoff )， 而 eo 和 e, 控 制 着 外 显 子 预测 网 络 输出 对 最 终 
预测 结果 的 影响 程度 。 这 四 个 参数 反映 了 供 体 /接纳 体位 点 识别 网 络 与 编码 / 非 编 
码 区 域 预 测 网 络 间 的 互补 侧重 关系 (relative strength )。 

这 四 个 合适 的 参数 值 决 定 了 前 接 位 点 识别 的 正确 率 和 相关 系数 。![ "2 与 其 他 
方法 比较 ， 使 用 外 显 子 预测 网 络 输出 来 控制 截断 痢 值 时 ， 根 据 不 同 的 预测 精度 需 
求 ， 假 阳性 率 可 降低 至 1/2 到 1/30。 

码 / 非 编码 区 域 预测 和 和 剪接 位 点 预测 由 输出 神经 元 的 输出 水 平 决定 ， 具 有 优 
势 互补 的 特性 。 一 般 来 说 ， 长 度 小 于 75bp 的 外 显 子 ， 其 项 测 网 络 输出 神经 元 的 输 
出 水 平 较 低 ， 为 0.3~0.6; 而 供 体 、 接 纳 体 位 点 预测 网 络 输出 神经 元 的 输出 水 平 较 
高 ， 为 0.7~1.0。 上 反之， 对 于 较 长 的 外 显 子 ， 其 预测 网 络 输出 的 峰值 尖锐 程度 较 明 
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图 6-12 ”使 用 NetGene 方 法 预测 GenBank 中 著名 的 HUMOPS 序 列 剪 接 位 点 的 操作 步 票 图 


A. 编码 / 非 编码 区 域 预 测 网 络 的 神经 元 输出 ， 较 强 的 信号 对 应 正确 的 外 显 子 区 域 。 在 内 含 子 区 域 和 序 
列 终端 的 非 转录 区 域 ， 一 些 部 分 显示 出 类 似 外 总 子 区 域 的 输出 值 特性 。 小 方 框 对 应 正确 的 外 显 子 区 域 ， 连 
线 对 应 内 谷子 区 域 ， 而 最 页 端的 直线 表示 DNA 的 整个 转录 序列 。B-. A 图 输出 的 差分 值 。C. 供 体位 点 预测 网 
络 输 出 不 小 于 0.25 的 供 体位 点 输出 值 。D. 接纳 体位 点 预测 网 络 输出 不 小 于 0.25 的 接纳 体位 点 输出 值 。 序 列 
上 各 位 点 的 可 变 截 断 赚 值 ( 对 应 90% 的 真实 剪接 位 点 识别 率 ) 连 成 的 曲线 如 曲线 所 未 。 


显 ， 而 人 殿 体 、 接 纳 体 预测 网 络 的 输出 模式 个 明显 。 
类 似 的 NetPlantGene 程 序 用 于 预测 阿布 属 拟 南 间 的 剪接 位 点 。'”] 该 生物 是 
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第 一 种 被 完全 测序 的 植物 。 与 许多 其 他 植物 相 比 〈 见 图 1-2 )， 其 基因 组 长 度 


(400Mbp ) 比较 适中 。 





6.5.5 ”通过 监测 神经 网 络 学 习 过 程 进行 序列 分 析 


众所周知 ， 神 经 网 络 具有 很 好 的 样本 
其 学 习 过 程 ， 

络 并 非 以 随机 顺序 进行 
学 习 数 据 中 线性 可 分 的 部 分 ， 然 后 再 学 习 不 属于 主流 
钱 和 塞 诺 斯 基 的 早期 工作 O 1 和 其 他 预测 蛋白 质 螺旋 结构 的 工作 ”1 都 清晰 地 
:线性 可 分 的 那 部 分 数据 学 习 速 度 快 ， 而 剩 下 





还 具有 另 一 种 特 件 : 监控 
要 信息 。 神 经 





说 明了 这 一 点 。 训 练 过 程 分 为 两 








= 























推广 能 力 。 近 来 的 研究 发 现 ， 神 经 网 络 
获得 关于 所 训练 样本 对 象 内 部 结构 的 重 
伴 本 学 习 ， 而 是 依赖 可 调 参 数 的 数量 ， 先 
特征 模式 的 野 点 (outlier )。 











的 样本 被 神经 网 络 正确 分 类 的 速度 要 慢 得 多 。 前 


步 中 被 学 习 的 一 些 样本 在 后 








步 的 学 习 中 道 常 是 





类 似 但 更 为 复杂 的 研究 分 析 有 待 进行 。 


神经 网 络 学 习 一 组 样本 的 顺序 扬 示 了 每 个 样本 的 相对 
据 集 的 规律 性 。'”””- 这 反 过 来 可 用 于 识别 与 主流 模式 不 
异常 样本 是 使 用 了 不 合适 的 分 类 和 
构建 复杂 的 系统 倘 型 和 避免 错误 规则 是 一 对 矛盾 ， 神 经 网 














需要 的 。 开 如 前 面 所 叙述 的 关于 遗传 密码 的 研究 一 样 ， 一 个 


非 线 性 信息 ， 以 及 全 数 


一 致 的 异常 样本 ， 这 些 
略 ， 或 者 仅仅 由 于 随机 导 人 的 分 类 误差 造成 的 。 


络 具 有 很 好 的 平衡 这 对 


矛盾 的 能 力 ， 因 此 可 以 处 理 喉 声 较 大 的 数据 ， 从 中 获得 较 高 质量 的 修正 反馈 信 


Bo 


不 论 在 序列 分 析 领 域 还 是 在 j 
网 络 的 样本 纠 错 能 力 在 很 多 不 同 的 工作 中 得 到 运用 。 利 用 
接 位 点 的 方法 ， 提 到 了 如 何 过 滤 不 同 来 源 的 误差 曝 声 。[00:0 1 在 训练 过 程 中 ， 有 

















其 他 存在 输入 样本 数据 类 别 错 误 的 问题 中 ， 神 经 


神经 网 络 预测 内 含 子 剪 


贡 种 不 同 的 方式 可 以 用 来 监控 样本 的 学 习 : …- 种 将 训练 集 视 做 一 个 整体 ， 另 一 种 
则 是 独立 分 析 每 个 输入 样本 是 否 被 成 功 学 习 。 将 训练 集 视 做 一 个 整体 的 策略 是 通 


过 观察 整个 网 络 误差 下降 的 情况 来 衡量 网 络 








性 能 的 。 若 正 相对 大 量 的 训练 集 样 





本 保持 恒定 ， 则 说 明 进一步 的 训练 不 会 再 提高 网 络 的 性 能 。 在 另 一 种 策略 中 ， 如 


果 样 本 的 网 络 实 值 输出 与 目标 输出 皆 处 于 截断 闭 值 的 





同 侧 ， 则 表明 该 输入 样本 已 


成 功 完 成 学 习 。 划 分 两 类 输出 类 别 的 截断 冰 值 绝 大 多 数 取 值 为 0.5。 这 样 ， 在 网 络 
训练 过 程 的 任意 时 刻 ， 是 否 学 习 成 功 的 评判 标准 都 是 针对 未 被 止 确 分 类 的 那些 输 


人 样本 的 。 





表 6-3 显 示 了 有 限 样本 资源 的 小 型 网 络 进行 供 体位 点 
数 的 翌 本 学 习 速 度 很 快 ， 而 剩 下 的 那些 则 需要 经 历 好 几 个 循环 周期 。 通 过 检查 不 
能 被 学 习 的 单 样本 输入 ， 可 以 发 现 大量 虚 假 的 供 体位 点 。 





预测 的 学 习 过 程 。 大 多 


这 些 虚 假 位 点 由 于 未 被 
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充分 加 以 识别 认证 ， 实 验 误差 或 者 对 实验 结果 的 错误 解释 而 混 人 公共 数据 库 中 。 


在 监控 训练 过 程 中 ， 
供 体位 点 监测 问题 ， 


可 以 获得 有 关 供 体位 点 输 和 人 样本 的 规则 模式 信息 。 例 如 对 于 
与 较 晚 学 习 的 输入 样本 相 比 ， 训 练 过 程 中 较 早 学 习 的 输入 样 





本 显示 出 较 一 致 的 5" 端 2AG/GTRAGT 序 列 保守 模式 。 


表 6-3 ”训练 过 程 中 ， 较 早 和 较 蜡 学 习 的 供 体位 点 输入 样本 序列 




















训练 周期 GenBank 的 序列 名 称 序 J 
1 HUMAIATP TACATCTTCTTTAAAGGTAAGGTTGCTCAACCA 
1 HUMAILATP CCTGAAGCTCTCCAAGGTGAGATCACCCTGACG 
1 HUMACCYBA CCACACCCGCCGCCAGGTAAGCCCGGCCAGCCG 
1 HUMACCYBA CGAGAAGATGACCCAGGTGAGTGGCCCGCTACC 
1 HUMACTGA GCGCCCCAGACACCAGGTGAGTGGATGGCGCCG 
1 HUMACTGA AGAGAAGATGACTCAGGTGAGGCTCGGCCGACG 
1 HUMACTGA, CACCATGAAGATCAAGGTGAGTCGAGGGGTTGG 
1 HUMADAG TCTTATACTATGGCAGGTAAGTCCATACAGAAG 
1 HUMALPHA, CGTGGCTCTGTCCAAGGTAAGTGCTGGGCTACC 
1 HUMALPI CCTGGCTCTGTCCAAGGTAAGGGCTGGGCCACC. 
1 HUMALPPD TGTGGCTCTGTCCAAGGTAAGTGCTGGGCTACC 
1 HUMAPRTA CCTGGAGTACGGGAAGGTAAGAGGGCTGGGGTG 
1 HUMCAPG GAAGGCTGCCTTCAAGGTAAGGCATGGGCATTG 
1 HUMCEVII GGAGTGTCCATGGCAGGTAAGGCTTICCCCTGGC 
1 HUMCP210H CACCTTGGGCTGCAAGGTGAGAGGCTGATCTGG 
1 HUMCP210HC CACCTTGGGCTGCAAGGTGAGAGGCTGATCTCG 
1 HUMCS1 GTGGCAATGGCTCCAGGTAAGCGCCCCTAAAAT 
1 HUMCSFGMA AATGTTTGACCTCCAGGTAAGATGCTICTCTCT 
1 HUMCSPB AAAGACTTICCTTTAAGGTAAGACTATGCACCTG 
1 HUMCYCIA GCTACGGACACCTCAGGTGAGCGCTGGGCCGGG 
2 HUMALATP CCTGGGACAGTGAATCGTAAGTATGCCTTTCAG 
2 HUMALATP AAAATGAAGACAGAAGGTGATTCCCCAACCTGA 
2 HUMAIGLY2 CGCCACCCTGGACCGGGTGAGTGCCTGGGCTAG 
2 HUMAIGLY2 GAGAGTACCAGACCCGGTGAGAGCCCCCATTCC 
2 HUMAIGLY2 ACCGTCTCCAGATACGGTGAGGGCCAGCCCTCA 
2 HUMAIGLY2 GGGCTGTCTITCTATGGTAGGCATGCTTAGCAG 
2 HUMAIGLY2 CACCGACTGGAAAAAGGTAAACGCAAGGGATIG 
2 HUMACCYBA GCGCCCCAGGCACCAGGTAGGGGAGCTGGCTGG 
2 HUMACCYBA CAGCCTTCCTTICCTGGGTGAGTGGAGACTGTCT 
2 HUMACCYBA CACAATGAAGATCAAGGTGGGTGTCTITCCTGC 
2 HUMACTGA TCGCGTTTCTCTGCCGGTGAGCGCCCCGCCCCG 
2 HUMADAG CTTCGACAAGCCCAAAGTGAGCGCGCGCGGGGG 
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CER) 
|_ 训练 周期 | ”GenBank 的 序列 名 称 序 列 
2 HUMADAG TGTCCAGGCCTACCAGGTGGGTCCTGTGAGAAG 
2 HUMADAG CGAAGTAGTAAAAGAGGTGAGGGCCTGGGCTGG 
11 HUMCS1 AACGCAACAGAAATCCGTGAGTGGATGCCGTCT 
11 HUMGHN AACACAACAGAAATCCGTGAGTGGATGCCTTCT 
52 HUMHSP90B CTCTAATGCTTCTGATGTAGGTGCTCTGGTTTG 
80 HUMMETIFi ACCTCCTGCAAGAAGAGTGAGTGTGAGGCCATC 
112 liUMIHSP90B ATACCAGAGTATCTCAGTGAGTATCTCCTTGGC 
113 HUMHST GCGGACACCCGCGACAGTGAGTGGCGCGGCCAG 
113 HUMLACTA GACATCTCCTGTGACAGTGAGTAGCCCCTATAA 
151 HUMKAL2 ATCGAACCAGAGGAGTGTACGCCTGGGCCAGAT 
157 HUMCS1 CACCTACCAGGAGTTTGTAAGTTCTTGGGGAAT 
157 HUMGHN CACCTACCAGGAGTTTGTAAGCTCTTGGGGAAT 
164 HUMALPHA CAACATGGACATTGATGTGCGACCCCCGGGCCA 
622 HUMCFVI CTGATCGCGGTGCTGGGTGGGTACCACTCTCCC 
636 HUMADAG CCTGGAACCAGGCTGAGTGAGTGATGGGCCTGG 
895 HUMAPOCIB TCCAGCAAGGATTCAGGTTGTTGAGTGCTTGGG 
970 HUMALPHA CGGGCCAAGAAAGCAGGTGGAGCTGGGGCCCGG 
2114 HUMAPRTA ATCGACTACATCGCAGGCGAGTGCCAGTGGCCG 














所 使 用 的 网 络 规模 很 小 ( 窗 长 为 9，2 个 隐 层 节点 和 1 个 输出 层 节点 )。 训练 样 本 是 长 度 为 33bp 的 序列 片 
断 ， 这 些 序列 片断 属于 数据 集 的 第 | 部 分 ， 位 于 331 个 剪接 位 点 周围。 表 中 显示 了 每 个 周期 中 能 被 训练 的 
神经 网 络 正确 预测 的 以 碱 基 G 为 中 心 的 供 体位 点 局 围 的 碱 基 序列 。 与 标准 供 体位 点 序列 的 保守 模式 


AGIGTE AGT 相差 较 大 的 序列 片断 ， 在 多 个 周期 以 后 十 被 成 功 学 习 。 


预测 的 性 能 评价 


多 年 的 研究 积累 了 多 种 用 来 评价 特定 预测 算法 准确 率 的 方法 。0311 对 一 些 预 
测算 法 进行 优化 ， 是 为 了 得 到 更 低 的 假 阳 性 率 ; 而 对 另 一 些 算法 进行 优化 ， 是 为 


了 得 到 更 低 的 假 阴 件 率 。 一 由 


股 来 说 ， 无 论 对 于 什么 类 型 的 预测 算法 ， 其 自 的 是 为 


了 保 让 这 些 算法 针对 一 些 在 构建 算法 的 过 程 中 末 曾 出 现 的 新 数据 ， 同 样 具 有 很 好 
的 预测 性 能 。 也 就 是 说 ， 该 预测 算法 应 该 能 够 对 属于 同一 数据 域 的 新 样本 具有 推 


T TERE, 


JAS FAL AR BHT 
确 率 除了 可 以 由 正确 预测 属 
类 为 信号 肽 或 非 分 记性 如 


悄 率 是 有 意义 的 。 例 如 ， 在 信号 肽 预测 中 ， 预 测 正 















-信号 肽 的 残 基 个 数 衡 景 外 ， 还 可 以 由 计算 被 正确 分 
和 白 的 序列 的 个 数 衡 基 。 类 似 地 ， 泪 白质 二 级 结构 的 预测 


性 能 也 可 从 每 条 链 或 每 个 氨基 酸 的 不 同 角 度 评价 。 
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着 眼 点 越 高 ， 预 测 性 能 的 度量 就 越 复杂 ， 问 题 的 针对 性 也 越 强 。 例 如 在 信号 
肽 预测 中 ， 统 计 剪 切 位 点 被 正确 预测 的 信号 肽 序列 的 数量 也 是 有 意义 的 。 识 别 基 
内 时 ， 外 显 子 两 端的 序列 可 能 预测 得 完全 正确 ， 或 仅仅 产后 一定 程度 的 重 倒 。 博 
塞 特 ( Burset ) MER (Guigo) OI 着 眼 于 外 显 子 层次 ， 定 义 子 4 种 简单 的 基 
识别 正确 率 的 度量 一 一 灵敏 度 WAE, BRIEF”. “PRET” 一 对 
完全 正确 或 完全 错误 的 预测 结果 进行 统计 。 二 级 结构 预测 中 ， 由 于 二 级 结构 单元 
(螺旋 或 折合 ) 没有 精确 的 定义 ， 上 述 度量 方法 显然 太 粗糙 了 。 此 时 可 以 应 用 片 
Wi EHR (SOV) 来 衡 基 算法 的 性 能 。: S : 这 是 一 套 基 于 序列 片断 的 启发 式 
评价 指标 ， 其 中 正确 预测 的 序列 片断 分 值 最 大 ， 即 使 预测 结果 与 整个 片断 的 类 别 
并 不 完全 一 致 。 这 一 打分 值 尽量 如 免 了 在 同一 类 别 的 序列 片断 中 出 现 其 他 预测 类 
别 这 一 情况 的 发 生 ， 例 如 两 个 螺旋 预测 片断 ， 其 中 一 个 片断 相对 另 一 个 片断 ， 连 
续 的 螺旋 结构 预测 区 域 比较 短 ， 其 对 应 的 惩罚 打分 值 (score punish ) 必然 比较 高 。 
这 一 度量 策略 很 好 地 反映 了 各 种 结构 类 型 的 片断 的 边界 具有 不 确定 性 。 这 一 例子 
说 明 ， 当 更 多 地 考虑 预测 问题 的 精确 度 时 ， 高 级 别 的 正确 率 度 明 也 将 随 之 出 现 并 
宽 加 有 针对 性 (ad hoc )。 

为 了 提高 算法 的 推广 性 能 ， 可 集中 考虑 单 残 基 / 核 背 酸 层次 的 评价 度量 标准 。 
在 二 级 结构 顶 测 中 ， 考 察 长 度 为 N 的 氨基 酸 序列 ， 相 应 各 位 置 点 的 预测 目标 为 
D=d1,…，dw。 简 化 起 见 ， 先 考虑 两 类 别 分 类 问题 ， 如 a 螺旋 / 非 a 螺 旋 。 这 样 ，dl 
取 值 一 般 为 0 或 1。 当 然 ， 如 果 d. 表 示 和 氨基 酸 外 表面 积 ,或 者 是 相应 位 置 的 概率 或 
置信 度 〈 这 个 概率 或 置信 度 反 映 了 现 有 知识 的 不 确定 程度 ) 时 ， 也 可 在 [0, 1] 
上 取 值 。 对 于 多 类 别 问题 ， 如 三 类 别 ( a 螺旋 、P 折 又 和 卷曲 ) 也 是 类 似 的 。 先 假 
设 预测 算法 或 模型 的 预测 输出 为 M=m.,…, myo 一 般 地 ，m, 为 反映 预测 置信 度 的 
取 什 在 [ 0, 1 ] 上 的 概率 。 当 然 也 可 以 利用 阅 值 截断 或 “ 胜 者 通 吃 ”原则 获得 离 
散 的 输出 一 一 0 或 1。 于 是 面临 的 最 基础 的 和 一 般 化 的 问题 是 ， 如 何 评价 M 的 正确 
性 ,或 者 说 如 何 比较 M 和 D? 

在 不 同时 期 ， 针 对 不 同 研究 内 容 ， 研 究 人 员 提 出 了 各 种 各 样 的 方法 ， 这 势必 
会 在 一 定 程度 上 引起 混乱 。 预 测 正确 率 与 每 种 类 别 个 体 的 出 现 频率 强烈 相关 。 在 
蛋白 质 二 级 结构 预测 中 ， 夫 然 蛋 白质 中 非 螺旋 类 别 几乎 占 70% ， 螺 旋 类 别 仅 占 
30%。 因 此 ， 把 所 有 个 体 都 预测 为 非 螺旋 ， 也 能 获得 70% 的 预测 正确 率 ， 但 这 无 
疑 不 包含 任何 有 用 的 信息 。 

下 面 回顾 一 下 几 种 方法 ， 并 考察 它们 之 间 的 联系 和 各 自 的 优 缺 点 。 

所 有 这 些 方法 都 基于 “氨基 酸 各 位 置 点 是 独立 和 等 价 的 ”这 一 简单 的 基本 
假设 。 基 于 此 ， 我 们 可 假设 : N、C 端 附近 位 置 的 残 基 对 预测 结果 的 影响 与 其 
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他 位 置 的 影响 相同 ， 不 随 权重 学 习 算法 而 改变 。 我 们 还 可 以 假设 : 无 任何 内 在 
机 制 可 以 保证 局 部 预测 结果 在 某 种 程度 上 是 “光滑 ”的 《 即 若 一 个 残 基 属 于 w 
螺旋 ， 并 不 说 明 周 围 的 若 下 残 基 属 于 wx 螺 旋 的 可 能 性 会 增 大 )。 相 反 地 ， 在 预测 
诸如 内 含 子 剪接 位 点 、 转 录 起 始 位 点 、 糖 基 化 或 磷酸 化 位 点 等 功能 位 点 时 ， 假 
设 预测 结果 不 是 正确 就 是 错误 ， 那 么 该 预测 结果 对 几乎 确信 的 位 点 就 没有 任何 
意义 。 

在 独立 和 等 价 的 假设 下 ， 如 果 D 和 M 取 值 均 为 二 值 的 ， 则 算法 性 能 的 优 劣 可 
完全 由 下 面 的 四 个 数值 概括 : 

。 TP=d 为 螺旋 ，m, 为 螺旋 的 样本 数 ( 真 阳 性 ) 

© 7TN=di 为 非 螺 旋 ，mm 为 非 螺旋 的 样本 数 〈 真 阴性 ) 

。FP=d 为 非 螺旋 ，mm 为 螺旋 的 样本 数 ( 假 阳 性 ) 

。 FN=d; 为 螺旋 ，m, 为 非 螺 旋 的 样本 数 〔 假 阴 性 ) 
并 月 满足 FTP+TN+FP+FN=N。 而 D 或 M 不 是 二 值 时 ， 情 况 将 更 为 复杂 ， 再 不 能 用 
这 四 个 数 来 完全 评价 算法 的 性 能 。 当 M 取 值 不 是 二 值 时 ， 采 用 阔 值 截断 的 方法 ， 
仍 可 获得 二 值 的 预测 结果 。TP、7N、FP 和 FN 值 将 会 随 着 阔 值 选择 的 不 同 而 变化 。 
可 将 TP、TN、FP 和 FN 值 排 和 一 个 2 x 2 的 矩阵 中 : 


























M M 
D TP FN 
D FP TN 


























单独 使 用 这 四 个 值 ， 尚 不 能 显而易见 地 显示 出 给 定 方法 的 性 能 优 劣 。 所 以 
很 多 算法 倾向 于 建立 一 个 单一 指标 ， 以 表示 娓 、M 之 间 的 “距离 *。 但 是 必须 清 
楚 一 点 ， 即 从 四 个 值 中 归纳 出 一 个 单一 的 指标 显然 会 丢失 部 分 信息 ， 即 使 在 二 
值 问题 中 也 是 如 此 。 通 常 ， 由 不 同 的 ?P、TN、FP 和 PN 值 可 以 衍生 出 相同 的 距 
Bo FE, ， 我 们 将 给 出 一 些 关于 M 的 性 能 度量 函数 ， 并 比较 分 析 它 们 的 优 缺 
点 。 
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6.7 不 同 的 性 能 评价 标准 


6.7.1 百分比 


第 一 种 显而易见 的 方法 是 用 TP、TN、FP 和 FN 计算 百分比 。 例 如 周 (Chou ) 
和 法 斯 曼 《(Fasman ) “5131 计 算 螺 旋 结 构 预测 正确 的 样本 所 占 的 自分 比 : 


TP 


(6.6) 
TP+FN 





PCP(D, M) = 100 





这 与 6.7.9 节 中 敏感 度 的 表达 公式 相同 。 单 独 使 用 这 一 指标 不 能 提供 任何 有 关 假 阳 
性 的 信息 。 假 阳性 信息 可 由 非 螺旋 结构 的 预测 正确 率 获 得 : 


IN 
PCN(D, M) = 100-5 FP (6.7) 
文献 (128,129 ] HT A PAO, MKAO BROJE RRE 
用 的 指标 ， 但 也 容易 使 人 产生 误解 [5991 并 日 仅 在 D 和 M 为 均 二 值 时 方 可 计算 得 
到 。 育 觉 上 ， 任 何 由 7P、7TNw、FP 和 Pw 中 的 两 个 数值 构造 的 数值 指标 在 某 种 程度 
LARA AAS Boa. EA, -组 CP, TN, FP, FN) 和 一 组 (TP, TN'， 
FP, FN’), HERKES, BOP. FPS SISA READ. 


6.7.2 MAAR 








在 两 类 别 分 类 的 二 值 例子 中 ，D 与 M 则 的 汉 明 中 离 (Hamming distance ) 定 
义 为 
HD(D, M) = 了 了 -nm (68) 


SRAR VARA BEE AR AB PEPER ZAP PN, REA TT SP EL EE 
等 效 。 该 距离 没有 将 属于 给 定 类 别 的 样本 比例 计算 在 内 。 样 本 比例 与 50% 相 差 得 
越 返 ， 这 种 度量 越 不 具有 代表 意义 。 存 非 二 值 实例 中 ， 汉 明 路 离 被 称 做 最 离 。 


6.7.3 ”二 次 距离 
一 次 距离 也 称 做 欧 几 里 德 距离 或 LMS( 最 小 均 方差 ) 距离 ， 它 的 定义 如 下 ; 








OD.M)=(D-M) = Dam) (69) 
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并 格 地 说 ， 上 库 定 义 的 距离 应 该 取 平 方 根 值 (参见 下 一 节 中 的 ?距离 )。 在 纯粹 
的 二 值 问题 中 ， 二 次 距离 退化 为 汉 明 距离 ， 也 等 于 FP+FN。 该 距离 有 利于 定义 非 
二 值 变量 ， 常 常 在 高 斯 模型 的 负 对 数 似 然 度 的 定义 式 中 出 现 。 








Plalm) = Ha -m) 120°] (6.10) 





其 中 o 为 与 8(D, M) 相关 的 缩放 比例 因子 。 对 应 二 值 变量 ， 二 次 距离 等 敦 于 汉 明 
距离 。 但 其 主要 的 缺点 在 于 高 斯 模 卉 通常 不 适用 丁 预 测 问题 ， 二 次 距离 值 也 无 法 
真实 地 反映 样本 相对 指定 类 蓝 的 位 置 比例 。 另 一 问题 是 ， 由 于 mi; 和 di 取 值 在 0 和 1 
之 间 ， 所 以 LMS 焉 离 的 动态 范围 有 限 。 这 对 于 需要 使 用 较 大 的 误差 信号 值 加 速 学 
习 过 程 的 学 习 算法 并 不 理想 。 为 避免 这 一 问题 ， 可 以 对 LMS 距 离 取 对 数值 ， 得 到 
LO(D, M) =~) log[t (4, —m) | (6.11) 
这 种 改良 后 的 误差 函数 已 经 被 用 于 很 多 神经 网 络 的 学 习 中 ， 见 参考 文献 [99, 245, 
236] 。 
6.7.4 LEE 


E-A, LERE 














Nip 


LP(D, wm-| Fh = mi? | (6.12) 


PLB Bt Mp=1, SNOB, p=2， 对 应 欧 几 里 
德 路 离 。 当 p 一 汪 时 ， 志 "距离 变 为 一 个 超 距离 :maxjd-~mil。 这 个 距离 提供 了 最 差 
情况 下 的 一 个 上 限 ， 但 对 于 评价 蛋白 质 二 级 结构 的 荐 测 性 能 没有 什么 帮助 。p 的 
其 他 取 值 在 实际 中 很 少 使 用 ， 对 于 评价 预测 性 能 也 没有 帮助 。 在 二 值 问题 中 ，L? 
距离 退化 为 2P+FN ) 4 的 形式 。 当 p=1 时 ， 己 退化 为 汉 明 距 离 。 


6.7.5 ”相关 系数 
相关 系数 ， 也 称 Pearson 相 关系 数 ， 是 一 个 统计 中 常用 的 标准 指标 ， 














-d)(m, -m 


d 
cp = SoG (6.13) 











其 中 ， 了 =ZdN， 丙 =myN， 为 各 样本 的 平均 值 ，op，ayt 为 相应 的 标准 差 。 在 
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二 级 结构 预测 的 研究 中 ， 这 个 指标 在 参考 文献 [382] 中 首次 使 用 ， 因 此 也 称 做 
Matthews 相 关系 数 。 相 关系 数 总 为 取 值 在 [ -1, 1 ] 上 的 实数 ， 可 以 是 非 二 值 变量 
的 形式 。 它 所 度量 的 是 归 一 化 参数 (di- 8 ) /op 和 (mj- 页 ) /av 间 的 关联 程度 。 
取 值 -1 代表 完全 负 相 关 ， 皮 值 +1 代 表 完 全 正 相关 ， 取 值 为 0 表示 预测 结果 完全 是 
随机 的 。 所 以 很 容易 将 预测 结果 与 随机 的 结果 作 比 较 。 如 果 两 个 变量 是 彼此 独立 
的 ， 那 么 它们 的 相关 系数 也 为 0， 但 其 着 命题 却 不 一 定 为 真 。 

如 果 用 向 量 的 形式 表示 ， 相 关系 数 可 以 写 做 归 一 化 向 量 内 积 的 形式 : 
























M- DM- Nim (6.14) 
Jammy (onal ey“ 




















c(D, M) = (p 


{(o-a) 


EPIRA CRS AWN. OH, COD, M) 与 距离 有 关联 ， 但 由 于 本 身 
可 取 负 值 ， 所 以 不 属于 距离 度量 。 如 果 向 量 D 和 M 经 过 归 一 化 , WOD, M) = 
(D-M )*=2-2DM=2-2C(D, M )。 和 前面 提 到 的 评价 指标 不 同 ， 相 关系 数 更 重视 
对 全 局 性 能 的 把 握 ， 而 不 仪 是 各 位 置 点 防 测 人 忻 能 的 合 加 。 

当 D，M 为 0、1 元 素 组 成 的 向 量 时 ， 有 D2-TP+PV，M2-TPrFP，DM=TP 等 成 
立 。 经 过 代数 变换 ， 可 得 











TP- Ndm 


C(D, M) = — A 
Nani -d)(1—m) 


(6.15) 





对 于 属于 螺旋 类 别 的 残 基 ， 有 了 = (TP+PN) IN, Wiz (TP+FP) IN, Wi, 























c(D.M)= Nx TP ~(IP + FN\TP + FP) 
, „(TP+ FN)(TP + FP)\(TN + FP\(IN + FN) 
E TPxTN - FPx FN 
„(TP+ FN)(TP+ FP)(IN + FP\(IN + FN) 


可 以 看 出 ， 相 关系 数 使 用 了 TP、TN、FP 和 FN 这 四 个 值 的 信息 ， 与 百分比 之 
类 的 指标 比较 ， 预 测 件 能 评价 的 可 靠 性 更 高 。 但 在 有 些 例 子 中 ， 相 关系 数 尚 不 能 
很 好 地 评价 系统 的 性 能 。 例 如 ， 若 预测 算法 的 假 阳性 率 极 低 或 为 0， 则 相关 系数 
值 相对 较 高 ， 但 同时 被 正确 预测 为 正 样本 的 数目 也 会 很 少 。C 值 对 于 FP 和 FN 是 对 
称 的 ， 这 一 结论 在 后 面 的 章节 中 会 很 有 用 。 

相关 系数 的 一 个 很 有 趣 的 特性 是 : 可 以 通过 简单 的 近似 统计 来 俭 验 相关 系数 
值 与 0 值 的 差异 ， 即 在 严 相 同 的 情况 下 ， 与 随机 猜测 相 比 ， 预 测 结果 和 数据 之 间 


(6.16) 
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的 相关 性 是 否 显著 提高 。 将 六 检验 应 用 到 包含 有 7TP、TN、FP 和 FN 这 四 个 值 的 2 x 
2 的 矩阵 上 ， 可 以 很 容易 得 到 检验 统计 量 为 X2=Nx CCD, M )。 


6.7.6 ”近似 相关 系数 


博 塞 特 和 吉 哥 (901 定义 了 “近似 相关 系数 ”指标 。 当 FTP+PFN、TP+FP、 
Tw+FP 或 TNHFN 任 意 一 者 为 0 时 〔 例如 无 任何 阳性 预测 结果 的 情况 )， 该 指标 用 以 
弥补 Matthews 相 关系 数 没有 定义 的 不 足 。 作 为 蔡 代 ， 当 以 上 各 相 加 项 皆 不 为 0 时 ， 
使 用 平均 条 件 概率 (ACP), ELH: 

















1 
ACP == 
ce-i. 





TP TP TN TN ] 


+ + + (6.17) 
TP+FN TP+FP TN+FP TN+FN 


否则 仅 计算 有 意义 的 条 件 概率 项 的 平均 值 即 可 。 近 似 相 关系 数 4C 由 4CP 简 单 变换 
得 到 : 
AC=2 x (ACP-0.5 ) (6.18 ) 
与 C 值 相同 ，4C 取 值 1、0、-1 分 别 对 应 全 正确 、 随 机 和 全 错误 预测 结果 。 博 塞 特 
和 二 愤 研 究 发 现 ， 其 计算 值 与 点 实 的 相关 系数 值 很 接近 。 
实际 上 ， 上 面 所 说 的 奇异 情况 并 不 存在 ， 因 为 当 任意 一 个 相 加 项 不 于 0 时 ，C 
值 也 趋向 于 0。 而 且 从 直觉 上 讲 ， 仅 包含 一 种 类 别 的 预测 毫 无 疑义 ， 该 预测 不 能 
传达 数据 的 任何 信息 。 相 反 地 ， 由 于 4CP 的 表达 式 将 无 定义 的 概率 项 删除 ,使 得 
AC 方 法 不 恰当 地 引 人 了 不 连续 性 。 因 此 ， 于 无 意义 的 预测 结果 相对 应 ， 以 上 方法 
无 法 保证 指标 值 为 0。 而 且 由 于 4C 没 有 简单 的 几何 表达 式 ， 所 以 这 种 近似 度量 的 
意义 不 大 ， 不 鼓励 使 用 该 度量 来 衡量 预测 性 能 。 


6.7.7 FART 


FER, ARE RM IAERKL AA ( Kullback-Leibler )， 是 基于 两 个 概率 向 量 X= 
Cay )》 和 Y= Cys ym) 的 对 比 计 算得 到 的 ， 向 量 X、Y 满 足 z，y 沁 0， Zx= 
Zy=1。 相 对 炉 的 具体 定义 如 下 : 









































M 
Xi 
H(X, Y) = $, log = -H(X)— 5) x; logy, (6.19) 
isi i i 











HACK) =- 达 xlogx; 为 一 般 的 炳 值 定义 ， 具体 可 参阅 有 关 信息 论 的 参考 文献 
342,341 ] 。 对 于 它 的 两 个 自 变量 ，H( X, Y) AERO, WAY 
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入 =Y 时 ， 值 为 0。 严 格 来 说 ， 因 为 该 函数 不 是 对 称 的 ， 所 以 不 算 距 离 度量 。 哩 然 
很 容易 将 它 对 称 化 ， 从 而 构建 一 个 标准 的 距离 度量 ， 但 这 并 不 是 必需 的 ， 上 面 的 
公式 对 于 问题 的 研究 已 经 足够 了 。 如 果 Y=X+s 近 似 于 和 ， 通 过 简单 的 泰勒 展开 ， 
可 得 











H(X,X+e)= a es a ze (6.20) 


7 


eM, AXES, WAT UT LMS BR 
回 到 二 级 结构 预 浏 问题， 可 以 利用 下 式 估计 预测 M 的 性 能 ; 





H(D, M)= Samed or 全 = (6.21) 
气 

这 对 应 每 个 位 置 ;的 相对 箭 的 和 。 对 于 非 二 值 数据 (如 结合 亲和力 )， 或 只 有 D 取 

ZEH, DAE ASR FEAR LE HOF Ot ASHE RE. MIR AY, Atay 

5P+PN 部 分 的 计算 值 趋 于 无 穷 大 ， 此 时 总 (D, M) = ( FP+FN ) >œ, WAHA 

公式 不 再 适用 。 


6.7.8 互信 息 


考察 概率 向 量 分 别 为 X= (x, …， xy) 和 Y= Cy, oo, yx ) 的 两 个 随机 变量 X， 
Yo QZ (X,Y) 为 简 卡 尔 积 空间 上 的 联合 随机 变量 ， 对 应 的 概率 向 量 为 Z。X， 
YZH EED (X, Y) 或 CX, Y) 定义 为 Zz 和 积 XY 之 间 的 相对 炳 : 


(X,Y) =H (Z, XY) (6.22) 


ATA ENE LE OIE. AAV OT ARE A Ms 它 利 用 
先 验 和 后 验 分 布 值 的 不 同 ， 表 示 当 一 个 随机 变量 确定 时 ， 另 一 个 随机 变量 不 确定 
度 的 减少 量 。X 的 不 确定 度 是 由 它 的 先 验 分 布 的 糖 上 i( X ) = 三 ,logx, 决 定 的 。 一 但 
确定 Y 取 值 为 >»， 则 X 的 不 确定 度 将 由 它 的 后 验 分 布 的 粹 H ( XIY=》) =5,P 
《X=x|Y=y ) logP( X=x|Y=y ) 决定 。 芋 信息 是 依赖 于 观测 值 y 的 随机 变量 。 对 所 有 
可 能 的 ?的 取 值 做 平均 ， 便 得 到 条 件 灶 





H(XY) 之 /0 )H(X|Y = y (6.23) 
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KX, N=HX)-A(X|Y)=HY)-AYX)=HOO+H(Y)-A(Z)=KY, X) (6.24 ) 
或 利用 对 应 的 概率 分 布 
KX, ¥) = H(X)— H(X|Y)= H(Y)- A(¥|X) = H(X)+ H(Y}- H(Z)= 7(Y,X) (6.25) 


再 回 到 二 级 结构 预测 的 问题 ， 当 D, M 都 为 二 值 时 ， 互 信息 度量 为 








FP FI 
p.m)=-1( 7, FEY) 
N’N’N’N 
TP [ere Ths FN) FN peren IN FN) 
——log| -= log] 
N N N N N N 
FP, [TP+FPTN+FP] TN [IN+FN TN+ FP 
一 I 一 k e 
ra NON | dl N VWN | (6.26) 
或 
1p, m=- X= EY 
N'N N'N 
TP poy FN po, 
-p eel am] -p e-m] 
FP | TN An = 
-去 gl -4 网 - 方 poglfl-aa -7)] (6.27) 


(RBs cm [549] ), 其 中 4= (7TP+FN) INA m= (TP+FP) IN CART), 并 和 县 





TN FP. FP FN, FN 
log — -~— log — - log 
N N N N N N N N 





TP T] FN T] TP Tl 
af N EP )=- Piog -IN (6.28) 


N'N N'N 





为 一 般 意 义 上 的 粹 。 和 相关 函数 一 样 ， 互 信息 更 注重 全 局 性 能 的 把 握 ， 而 不 单单 
注重 肩 部 性 能 的 又 加 。 很 明 歇 ， 互 信息 总 是 满足 0<1(D, M) <H(D), Alt, 
在 预测 性 能 评价 中 ， 同 样 使 用 归 一 化 的 互信 息 OS] 系数 形式 : 














1C(D, M) = (6.29) 





其 中 
H(D) =~ + FN rd = 过 |- TN + FP be | 


6.30 
N N N ( ) 
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或 更 明确 简洁 地 表示 为 : H(D) = mlogm—-(1-m ) log (1- 南 )。 归 一 化 的 互 
信息 满足 0<1C(D, M) <1。 当 IC(D, M) =0 时 ， 有 7(D, M) =0， 对 应 随机 预 


测 的 情况 CD, M 独 立 ) ; IC(D, M) =l 时 ， AID, M) =H(D) =H(M)， 对 应 


预测 结果 完全 下 确 的 情况 。 和 相关 系数 一 样 ， 互 信息 更 注重 全 局 性 能 的 把 握 ， 而 


不 单单 注重 局 部 性 能 的 和 加。 互信 息 是 关于 FP 和 FN 对 称 的 ,但 由 于 分 母 的 原因 ， 























互信 息 系数 不 是 对 称 的 。 
6.7.9 ”敏感 度 和 特异 度 


对 于 预测 算法 的 输出 为 连续 情况 的 两 类 别 预测 问题 ,TP、TN、FP 和 FN 的 取 
值 将 依赖 于 如 何 选择 阅 值 。 一 般 来 说 ,会考 峙 算法 的 假 阳性 率 和 假 阴 性 率 ， 从 中 





取 个 折 中 。 


























在 ROC (receiver operating characteristic, UP REE) 曲线 图 中 ， 阔 值 的 


选择 可 以 通过 考察 截 
rate) 和 “ 假 阳 性 率 ” 
CTP+FN) ] 与 “ 假 阳 
的 增长 趋势 一 臻 〈 见 





断 冰 值 在 一 定 范围 变化 时 ， 随 之 相应 变化 的 “命中 率 ”( hit 
的 变化 曲线 加 以 确定 。 一 般 来 说 ,“ 命 中 率 ” [ 敏感 度 ，TP/ 
PEE” [ 也 称 误 极 率 (false alarm rate )，FP/ ( FP+TN) ] 
图 8-10 )。 同 样 地 ， 可 以 在 一 张 相似 的 图 或 两 张 独立 的 图 中 


























总 示 敏感 度 [ TP/ ( TP+FN ) ] 和 特异 度 [TPI ( TP+FP ) ] 随 截断 闪 值 取 值 变化 时 


的 关系 曲线 。 





敏感 度 是 正确 预测 正 伴 本 的 概率 ， 特 异 度 则 是 正 样本 被 正确 预测 的 概率 。 在 











医学 统计 中 ,“ 特 异 度 ”有 时 包含 男 外 的 含义 ， 即 指 负 样本 被 正确 预测 的 可 能 性 ; 











TNI ( FP+FN )， 等 于 1 与 假 阳 性 率 的 差 值 。 这 里 我 们 倾向 于 使 用 负 样 本 的 敏感 


Eo 


如 朵 敏感 度 表示 为 x=TP/( TP+FN )， 特 异 度 表示 为 y=TP/( TP+FP )， 则 


只 要 x，y 均 不 等 于 0， 
这 套 参数 替代 (TP, 





TP+FP=12 TP+FN= 
y x 


TN + FP =N-(TP+ FN) = TE 
x 


(6.31) 


N+ FN = N- (TP+ FP) = -I 
y 


TP 就 不 会 等 于 0。 本 质 上 ， 以 上 公式 是 用 (TP, x y, N) 
TN, FP, FN) 这 套 参数 。 将 新 的 参数 代 人 (6.16 ) 中 ， 经 


过 运算 ， 可 以 得 到 以 敏感 度 和 特异 度 表示 的 相关 系数 表达 式 ， 
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Ny-7P 
(x —TP\(Ny -7P) 


注意 : 该 表达 式 关于 x，y( 即 敏感 度 和 特异 度 ) 是 完全 对 称 的 ， 或 等 价 于 该 表达 
式 关于 FP 和 FN ( 即 假 阳 性 与 假 阴 性 的 数目 ) 是 对 称 的 。 事 实 上 ， 给 定 7P，FP 和 
FN 的 改变 等 价 于 x 和 y 的 改变 。 同 样 ， 互 信息 表达 式 ( 6.27 ) 和 互信 息 系 数 表达 式 
(6.29) 也 可 以 用 (TP, x, y, N) 这 套 参 数 表示 。 互 信息 表达 式 关于 x 和 y， 即 FP 
和 FN， 也 是 完全 对 称 的 。( 但 对 于 互信 息 系 数 ， 这 一 结论 不 成 立 。) 


6.7.10 总 结 


总 之 ,在 等 价 与 独立 的 假设 下 ， 如 果 D 和 M 是 二 值 的 ， 则 TP、TN、FP 和 FN 
中 包含 了 所 有 的 性 能 评价 信息 。 任 何 一 种 单 值 表示 的 性 能 指标 必然 丢失 一 些 信息 。 
汉 明 距离 和 二 次 距离 在 二 值 的 情况 下 完全 等 价 。 这 些 距离 和 百分比 、L’ 噬 离 一 样 ， 
仅 由 TP、TN、FP 和 FN 这 四 个 值 中 的 两 个 得 出 。 相 关系 数 和 互信 息 系数 则 是 从 全 
部 四 个 值 中 得 出 的 ， 因 此 能 更 好 地 评价 性 能 。 在 连续 问题 中 ， 推 荐 将 相关 系数 和 
相对 粮 作 为 性 能 评价 指标 。 


c(D,M) (6.32) 
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7.1 简介 


在 20 世 纪 90 年 代 ， 在 应 用 序列 比 对 方法 "1 中 ， 研 究 人 员 发 现在 新 预测 到 
的 蛋白 序列 中 ， 只 有 大 约 1/3 与 其 他 已 知 序列 有 明确 的 相似 性 。' "51 而 不 完整 
的 新 序列 或 序列 片断 与 其 他 已 知 序列 的 相似 性 更 低 。 随 着 各 类 基因 组 、cDNA 和 
其 他 测序 计划 的 开展 ， 尤 其 测序 过 程 中 产生 的 表达 序列 标签 (expressed sequence 
tag, EST) 的 积 挫 ， 大 规模 的 片断 数据 库 变 得 越 来 越 实 用 。'””1 在 1997 年 初 ， 
GenBank 数 据 库 中 约 有 一 半 的 数据 由 片断 数据 构成 。 这 些 数据 包含 了 人 类 基因 组 
表达 序列 的 绝 大 部 分 。 对 这 些 片断 进行 识别 和 分 类 ， 并 从 中 挖掘 更 多 有 用 的 信息 ， 
自然 引起 人 们 极 大 的 兴趣 。 
利用 多 重 序列 比 对 提取 和 贷 白 质 家 族 的 保守 模式 序列 ， 已 经 成 为 提高 数据 库 检 
索 敏 感度 和 效率 的 一 种 有 效 手段 。!23522503344138] 不 同 于 传统 的 序列 比 对 ， 保 守 
模式 序列 中 包含 了 更 多 信息 ， 例 如 在 整个 序列 家 族 中 或 多 或 少 保守 的 残 基 及 其 位 
置信 息 ， 残 基 插 人 和 删除 的 概率 等 。 所 有 有 关 序列 共有 的 保守 特征 的 描述 方法 ， 
如 序列 谱 (profile ) 25] 、 可 变 模式 (flexible pattern )'°?! AREE (block ) £2), 
都 可 以 视 为 隐 马 氏 模 型 CHMM ) 的 具体 应 用 。 

在 过 去 几 十 年 中 , 基于 HMM 的 另 一 类 概率 图 模型 被 用 于 各 类 时 间 序 列 的 建 模 ， 
尤其 是 用 于 语音 识别 的 时 间 序 列 建 模 。[3594?1 以 上 模型 在 诸如 离子 通道 记录 (ion 
channel recording ) 41 和 光 宁 符 识别 (optical character recognition ) !3571 的 其 他 许 
多 领域 也 有 应 用 。HMM 也 早已 被 应 用 于 计算 生物 学 领域 ， 包 括 DNA 的 编码 / 非 编 
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码 区 建 模 11”; ，DNA 中 蛋白 质 结合 位 点 O°) 和 和 蛋白质 超 家 族 [3335 等 的 建 模 。 
然而 直到 90 年 代 中 期 ，HMM 才 与 其 他 机 器 学 习 技 术 结合 ， 被 系统 地 用 于 建 模 、 比 
对 和 分 析 整个 蛋白 质 家 族 和 DNA 区 域 。 

HMM 与 神经 网 络 、 随 机 文法 以 及 贝 叶 斯 网 络 密切 相关 ， 或 在 某 种 程度 上 成 
为 它们 的 特例 形式 。 在 本 章 中 ， 我 们 将 介绍 HMM， 并 讲述 如 何 将 其 视 为 第 3 章 的 
多 仍 子 模型 的 推广 。 这 里 将 采用 与 第 4 章 类 似 的 思路 讲述 HMM 的 有 关 理论 ， 尤 其 
是 概念 的 发 展 和 机 器 学 习 算法 。 本 章 随后 的 各 节 将 逐步 应 用 这 些 算法 ， 来 解释 如 
何 使 用 HMM 分 析 生 物 序列 。 更 多 的 具体 应 用 可 参考 第 8 章 内 容 ，HMM 与 其 他 各 
类 模型 的 关系 则 留待 后 续 章节 论述 。 


7.1.1 HMM 的 定义 











1 阶 离散 的 HMM 是 一 个 关于 时 间 序 列 的 随机 生成 模型 ， 由 有 限 状态 集合 5、 
离散 的 字符 集 4、 转 移 概率 矩阵 T=(1,) 和 生成 概率 矩阵 E=(ejx) 共 同 定义 。 一 个 隐 马 
氏 系统 随机 地 从 一 个 状态 变化 为 另 一 个 状态 ， 同 时 生成 字符 集 (alphabet) 中 的 
一 个 字符 。 当 系统 处 于 状态 和 ， 系 统 转移 到 状态 /的 概率 为 让， 同时 生成 字符 X 的 
概率 为 ex。 由 此 HMM 可 以 被 设想 为 两 个 与 状态 相关 的 骨 子 : 一 个 状态 转移 的 撕 
子 和 一 个 生成 字符 的 明 子 。 基 本 的 1 阶 马尔 可 去 方 程 假设 指出 : 生成 和 转移 过 程 
都 只 取决 于 当前 状态 ， 而 与 历史 无 关 。 因 为 只 有 系统 生成 的 字符 才能 被 观察 到 ， 
系统 在 状态 之 间 的 随机 游 走 (random walk) 无 法 被 观察 到 ， 由 此 冠 之 以 “ 隐 ” 马 
氏 模 型 。 这 一 隐藏 的 随机 游 走 可 被 视 为 观察 不 到 的 隐藏 的 或 潜在 的 随机 变量 。 

与 神经 网 络 类 似 ， 与 非 零 的 tj, 连 接 相 关联 的 有 向 图 也 称 为 HMM 的 构架 
(architecture )。 一 般 假 设 存在 “初始 ”和 “终止 ” 隘 个 特殊 的 状态 ， 尽 管 它 们 对 
于 HMM 的 理论 并 非 必要 。 在 t=0 时 刻 ， 系 统 处 于 初始 状态 。 当 然 可 以 选择 以 状态 
空间 上 的 一 个 概率 分 布 作为 初始 状态 。 转 移 概率 和 生成 概率 都 是 模型 的 参数 。 另 
一 种 等 价 的 理论 是 使 生成 过 程 基 于 状态 转移 而 不 是 基于 状态 本 身 。 连 续 字符 空间 
上 的 HMM 也 存在 ,但 由 于 我 们 关注 的 焦点 在 生物 序列 的 离散 特性 ， 故 本 书 对 此 
不 做 更 多 讨论 。 

图 7-1 给 出 了 一 个 很 简单 的 HMM 的 例子 。 我 们 设想 有 两 个 “DNA 山 子 ”。 第 
一 个 角子 代表 生成 概率 向 量 ( eliA=0.25，eic=0.25，eie=0.25，eir=0.25 ) ; 第 二 
个 骨 子 代表 生成 概率 向 量 ( ey,=0.1，esc=0.1，e,g=0.1，e21=0.7 )。 转 移 概率 如 图 
中 给 出 。 假 设 我 们 观察 到 一 个 序列 ATCCTTTTTTTCA。 我 们 可 以 立即 提出 至 少 
三 个 问题 ， 上 由 这 个 特定 的 HMM 生 成 这 一 序列 的 可 能 性 有 多 大 ?( 即 可 能 性 问题 } 
对 于 由 给 定 HMM 所 产生 的 这 一 特定 序列 ， 最 可 能 的 转移 和 生成 概率 序列 是 什 
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么 ?〔 即 解码 问题 ) 最 后 ， 假 设 转移 和 生成 概率 参数 未 知 ， 如 何 利用 观察 到 的 特 
定 序列 估计 这 些 参 数 的 值 ?《 即 学 习 问题 ) 建议 读者 先 就 以 上 例子 尝试 回答 这 些 
问题 。 对 于 这 三 个 问题 的 一 般 性 的 精确 算法 将 在 后 面 几 节 中 给 出 。 下 面 先 介绍 几 





个 使 用 不 同 HMM 构 架 的 生物 学 应 用 例子 。 








05 
ATCCTTTTTTTCA 


图 7-1 HMM 的 一 个 简单 例子 ( 包括 两 个 状态 以 及 初始 和 终止 状态 ) 


7.1.2 生物 序列 的 HMM 


在 生物 序列 分 析 中 ，HMM 的 字符 集 自然 是 构成 蛋白 质 的 20 种 氨基 酸 和 构成 
DNA/RNA 的 4 种 核 背 酸 的 字符 。 然 而 ,也 可 以 根据 不 同 的 问题 使 用 其 他 多 种 字符 集 ， 

















例如 包含 64 个 符号 的 三 联 体 符号 表 ， 表示 二 级 结构 的 三 元 符号 表 (a, p. Ah), 


























以 及 由 各 种 字符 集 的 笛 卡 尔 积 生成 的 新 的 字符 集 ( 见 表 6-1 )。 如 果 需 要 ， 还 可 在 任 
何 字 符 集中 添加 1 个 空格 符号 。 在 本 章 和 第 8 章 中 我 们 仅 使 用 蛋白 质 和 DNA 的 符号 表 。 

在 上 述 的 简单 HMM 构 架 中 ， 只 包含 两 个 隐 状 态 ， 并 在 两 个 隐 状 态 间 建立 了 
完全 连接 。 在 实际 应 用 中 ， 我 们 需要 考虑 更 加 复杂 的 HMM 构 架 ， 它 们 包含 更 多 
的 状态 以 及 状态 间 的 稀 朴 连接 。 设 计 和 选择 何 种 构架 ， 在 很 大 程度 上 是 由 所 研究 
的 问题 决定 的 。 生 物 序列 分 析 中 ， 在 语音 识别 中 常用 的 一 种 称 为 “从 左 到 右 ” 的 











构架 ， 能 够 很 好 地 抓 住 序列 的 线性 特征 。 对 于 构架 








bh 的 任 一 状态 ， 一 旦 该 状态 转 
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移 到 其 他 状态 ， 系 统 将 不 再 返回 该 状态 ， 这 样 的 构架 称 为 “从 左 到 右 ” 的 。 这 里 
首先 介绍 在 生物 序列 分 析 中 广泛 采用 的 最 基本 的 “从 左 到 右 ” 构 架 ， 即 标准 线性 
构架 〔 如 图 7-2 所 示 )。 


























图 7-2 标准 HMM 构 架 


S 是 初始 状态 ，E 是 终止 状态 ，d、m 和 i 分 别 代表 删除 状态 、 主 状态 和 插 和 人 状态 。 


首先 从 相关 序列 家 族 ( 如 一 个 蛋白 质 家 族 ) 的 建 模 开始 。 与 HMM 应 用 于 语 
音 识别 类 似 ， 一 个 蛋白 质 家 族 可 以 被 视 为 由 一 个 HMM 产 生 的 同一 个 词 的 一 系列 
不 同 发 音 。 而 这 个 标准 HMM 构 架 则 可 视 为 第 3 章 介 绍 的 多 角子 模型 的 简单 推广 。 
多 骨 子 模型 实际 上 就 是 合 有 线性 状态 序列 的 简单 BMM ， 其 中 每 个 朋 子 对 应 于 一 
个 状态 。 从 一 个 状态 到 下 一 个 状态 的 转移 概率 都 设 为 1。 每 一 个 仍 子 的 生成 概率 
直接 与 序列 家 族 中 相应 列 的 字符 排列 相关 联 。 当 然 ， 字 符 的 插入 和 删除 是 这 个 模 
型 的 主要 问题 : 一 般 而 言 ， 同 一 家 族 中 不 同 序列 的 长 度 N 并 不 相同 。 即 便 在 般 子 
的 字符 集中 加 和 间隙 符 ， 我 们 仍然 需要 预先 进行 多 重 比 对 以 决定 每 一 个 假 子 的 生 
成 概率 。 标 准 BMM 枸 架 很 简单 ， 但 它 从 根本 上 扩展 了 单 仍 子 模型 : 在 所 有 可 能 
的 位 置 上 增加 了 对 应 于 插入 和 删除 操作 的 新 状态 。 

在 标准 HMM 构 架 中 ， 除 初始 和 终止 状态 外 还 有 三 种 状态 : 主 状态 、 播 人 状态 
和 删除 状态 ， 表 示 为 S= | starbma Mein iy die dyend jl 删除 状态 又 称 为 间 
逐 或 跳 唉 状态 。AN 是 模型 的 长 度 ， 取 值 一 般 为 家 族 中 序列 的 平均 长 度 。 主 状态 和 插 
入 状态 一 般 代表 一 个 氨基 酸 字符 ， 而 删除 状态 则 为 “ 哑 ” 状 态 。 这 相当 于 在 字符 
集中 加 入 一 个 空格 符 ， 并 强制 规定 删除 状态 的 生成 符号 仅 为 空格 符 。 沿 状态 转移 
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的 线性 序列 构成 了 模型 的 主干 : Emm m RERESET 
模型 的 状态 相对 应 。 从 每 个 主 状态 到 插 人 和 删除 状态 的 转移 过 程 ， 对 应 着 相应 序 
列 字符 的 插入 和 删除 过 程 。 更 准确 地 讲 ， 删 除 过程 应 与 主 状态 一 一 对 应 ， 而 插入 
过 程 应 与 模型 主干 上 的 状态 转移 一 一 对 应 。 插 入 状态 的 自 环 self-loop ) 允许 在 同 
一 位 置 插入 多 个 字符 。 字 符 集 大 小 为 |4 | 的 标准 HMM 构 架 ， 大 致 有 2N 14 | 个 生成 概 
率 参数 和 9AN 个 转移 概率 参数 ， 这 里 没有 考虑 细微 的 边界 值 误 差 【 准确 的 数值 为 
(2N+1 ) |4 | 个 生成 概率 参数 和 9N+3 个 转移 概率 参数 ] 。 因 此 ， 当 N 足 够 大 时 ， 蛋 
白质 模型 的 参数 个 数 约 为 49N，DNA 模 型 的 参数 个 数 约 为 17N。 同 样 地 ， 忽 略 边界 
的 影响 ， 有 2N 个 生成 概率 归 一 化 约束 方程 以 及 3N 个 转移 概率 归 一 化 约束 方程 。 


























先 验 信息 和 初始 化 


在 HMM 的 设计 和 参数 选择 中 应 用 先 验 信息 的 方法 有 很 多 种 。 我 们 将 在 后 面 
章节 中 列举 不 同 的 HMM 构 架 。 在 选择 了 某 一 HMM 构 架 之 后 ， 如 果 能 获得 相应 的 
先 验 信息 ， 就 可 以 进一步 限定 部 分 参数 的 取 值 范围 。 这 些 先 验 信息 包括 高 度 保守 
模式 和 朴 水 区 域 信息 。 和 神经 网 络 模型 中 的 权重 共享 一 样 ， 也 可 以 将 不 同 蛋白 质 
的 参数 关联 在 一 起 。 由 于 HMM 的 生成 概率 和 转移 概率 都 与 多 项 式 模型 密切 相关 ， 
所 以 Dirichlet 分 布 自然 成 为 HMM 参 数 的 先 验 分 布 。 


7.2.1 转移 概率 矩阵 的 Dirichlet 先 验 分 布 


EIEBMMHMR P, Dirichlet Ai Doo (5 ) 很 适合 用 于 估计 从 状态 ;出 发 
的 转移 概率 向 量 i,。 对 于 同一 类 的 所 有 状态 ， 我 们 可 以 用 相同 的 Dirichlet 分 布 ， 
例如 对 于 所 有 主 状态 ( 受 边 界 影响 的 最 后 一 个 状态 除外 )。 由 此 三 个 基本 的 先 验 
分 布 一 -人 D。o,、Dag 和 Doo 一 一 可 以 分 别 用 于 估计 从 主 状态 、 插 入 状态 和 删除 
状态 出 发 的 转移 概率 向 量 。 若 需要 ， 可 以 令 on=o=a， 进 一 步 化 简 超 参 数 w。 需 
要 注意 的 是 ， 对 于 不 同类 型 的 状态 Dirichlet 分 布 的 向 量 @ 通 常 不 一 致 ， 这 是 因为 
向 主 状态 转移 的 概率 期 望 比较 大 。 


7.2.2 生成 概率 和 矩阵 的 Dirichlet 先 验 分 布 
生成 概率 矩阵 吕 so Cex) 的 情况 是 类 似 的 。 一 个 简单 的 方案 是 对 于 所 有 主 状 
态 和 插入 状态 使 用 相同 的 Dirichlet 先 验 分 布 。 向 量 & 可 以 取 值 相 同 。 另 一 种 可 行 


的 方案 是 令 C 等 于 训练 集 样本 的 平均 组 成 频率 。 另 外 ， 某 些 文献 还 使 用 了 混合 
Dirichlet 分 布 。 1! 
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7.2.3 初始 化 


转移 矩阵 的 初 值 -一 般 取 同一 数值 或 随机 给 定 。 然 而 在 标准 HMM 构 架 中 , 采 
用 偏向 于 主 状 态 的 先 验 分 布 要 比 采 用 相同 取 值 的 初 值 效果 更 好 。 若 在 所 有 状态 间 
进行 转移 的 代价 相同 , 则 从 主 状态 和 播 人 状态 出 发 的 各 种 转移 的 代价 也 大 致 相同 。 
结果 插入 状态 最 终 可 能 非常 频繁 地 被 选中 ， 这 显然 不 是 一 个 理想 的 方案 。 在 参考 
文献 [41] 中 ,为 了 回避 这 个 问题 ,引入 了 一 个 稍 有 不 同 的 构架 ( 如 图 7-3 )。 其 
中 主 状态 的 记 出 度 (fan-out) (3) 比 插入 或 删除 状态 的 时 出 度 (4) FAME, TE 
比较 所 有 用 同一 数值 初始 化 状态 转移 概率 的 方案 ,达到 主 状态 的 代价 也 因此 较 小 。 
生成 概率 矩阵 可 采用 类 似 的 方法 初始 化 ， 如 采取 取 值 相同 的 初 值 、 随 机 取 值 ， 甚 
至 采用 训练 集 样 本 组 成 的 概率 平均 。 如 果 采 用 Viterbi 学 习 算 法 ， 任 何 显著 偏离 相 
同 初 值 的 初始 化 方案 都 可 能 引 人 不 良 的 状态 偏 倚 。 
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图 7-3 标准 HMM 构 架 的 变 体 


S 代 表 初 始 状态 ，E 代 表 终 止 状态 ，d,、mm. 和 i 分 别 表示 删除 状态 、 主 状态 和 插入 状态 。 


使 用 多 重 序列 比 对 结果 进行 初始 化 

训练 集 的 多 重 序列 比 对 结果 可 以 用 来 确定 标准 HMM 构 架 的 参数 ， 至 少 能 够 
在 训练 之 前 初始 化 这 些 参数 ， 这 一 点 很 重要 。 若 多 重 比 对 结果 能 提供 更 好 的 初 值 ， 
我 们 当然 希望 初 值 能 更 靠近 最 优 解 ， 这 样 学 习 过 程 就 会 更 快 或 者 可 以 由 此 进一步 
得 到 更 好 的 解 。 根 据 多 重 序列 比 对 结果 ， 如 果 比 对 中 的 某 一 列 的 间隙 少 于 50%， 
可 以 将 该 列 指定 为 一 个 主 状态 。 若 一 俐 的 间 隐 超过 50%， 可 以 相应 地 指定 为 一 个 
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插 和 状态。 删除 状态 则 与 位 于 间 际 少 于 50% 的 比 对 列 中 的 那些 间隙 相关 联 。 主 状 
态 和 插入 状态 的 生成 概率 矩阵 ， 可 以 根据 相应 列 的 频率 计数 值 进行 初始 化 ， 尽 管 
这 些 初 值 仍然 需要 进行 调整 《 根据 Dirichlet 分 布 或 者 它们 的 混合 分 布 )， 以 避免 由 
夫 频 率 引 人 的 生成 矩阵 的 偏 傈 。 类 似 的 方法 也 可 用 于 确定 转移 概率 参数 。 


似 然 度 及 基本 算法 











在 本 节 中 ， 我 们 将 研究 一 些 HMM 的 基本 算法 ， 前 面 提出 的 三 个 问题 中 的 前 两 
个 将 在 本 节 中 会 获得 解答 。 尤 其 是 如 何 计算 似 然 度 ， 以 及 与 某 一 特定 观测 序列 相对 
应 的 最 可 能 的 状态 转移 和 生成 序列 。 这 些 算法 都 是 递归 的 ， 而 且 可 视 为 某 些 形式 的 
动态 规划 ， 或 者 与 HMM 相 关 的 有 向 图 上 的 传播 算法 。[491 将 这 些 算法 进行 组 合 ， 
构成 了 后 续 各 节 中 所 讲述 的 学 习 算法 。 引 人 删除 状态 将 使 一 些 公式 变 得 稍微 复杂 些 。 

首先 ， 假 设 问 题 是 根据 一 个 参数 为 w 的 HMM M=M(w) 计 算 一 个 序列 Q=X1-…X… 
X 的 可 能 发 生 概率 P(Olw)。 定 义 NM 中 的 一 条 路 径 z 为 从 初始 状态 到 终止 状态 的 一 个 
彼此 相连 的 状态 序列 ， 同 时 依次 为 该 路 径 上 的 每 一 个 生成 状态 〈 能 够 生成 符号 的 状 
态 ) 选择 生成 一 个 字符 。 若 沿 该 路 径 所 生成 的 字符 序列 与 O 相 同 ， 则 























工 


P(O,x Iw)= TT (7.1) 


stari t= 
RPA ARETA RE LTA, WE TRER T En 
上 生成 状态 i 的 生成 概率 。 若 沿路 径 生 成 的 符号 序列 与 序列 O 不 相符 ， 则 显然 有 
P(O,zlw)=0。 于 是 一 个 序列 的 似 然 度 可 以 表示 为 


P(O Iw= >. P(Oxlw) (7.2) 











然而 ， 这 个 表达 式 并 不 能 产生 出 一 种 计算 似 然 度 或 其 衍生 结果 的 有 效 算法 ， 因 为 
在 这 一 构架 中 ， 路 径 的 数量 是 以 指数 增长 的 。 幸 运 的 是 ， 有 一 种 更 为 有 效 的 计算 
似 然 度 的 算法 ， 即 “前 向 算法 ”。 本 节 中 的 其 他 所 有 算法 都 与 之 类 似 ， 可 视 为 一 
种 沿 构架 进行 的 、 遵 循 递归 传播 机 制 的 计算 方法 。 这 种 算法 有 效 避 免 了 逐一 遍历 
所 有 隐藏 的 可 能 路 径 。 


7.3.1 前 向 算法 
我 们 定义 

















a,(t)= P{S'= i, X! X' jw) (7.3) 
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为 系统 在 时 间 !: 处 于 状态 ;的 概率 ， 假 没 观察 到 模型 M(w) 生 成 字符 序列 为 X Xo 
可 以 将 o 初 始 化 : 


Caun(0)=1 (74) 
若 不 存在 初始 状态 , 就 要 为 所 有 状态 给 定 一 个 初始 概率 , Ait APOw)=a,,ATo 
其 中 o(D 可 以 通过 简单 的 传播 过 程 递 归 地 计算 : 


D= Boseoen= Le (Myer (75) 
jes 


JeN i) 





以 上 邻接 表示 ( neighborhood notation ) 又 一 次 显示 出 一 般 性 稀 朴 矩阵 连接 的 好 处 。 
这 个 公式 适用 于 所 有 生成 状态 ,但 对 于 删除 状态 ， 它 需要 稍 做 修改 : 

a(t+l= > CACAD (7.6) 
JEN (i) 

初 看 起 来 , (7.5 ) 和 (7.6 ) 并 没有 定义 出 一 个 正确 的 传播 机 制 ， 因 为 在 
(7.6) 中 时 间 t+1 同 时 出 现在 等 式 的 两 边 。. 然 而 很 容易 看 出 : 通过 闪 代 计算 ,，(7.5) 
和 《7.6 ) 一 定 会 收敛 到 一 组 稳定 的 值 o(t+1)。 对 于 标准 HMM 和 构架 ， 由 于 不 存在 
只 经 过 删除 状态 的 有 向 循环 回路 ,这 一 结论 是 显而易见 的 。 这 种 情况 下 ，( 7.6 ) 
最 多 只 需 被 选 代 N 次 。 而 即便 在 构架 中 存在 经 过 删除 状态 的 循环 回路 , (7.6 ) 仍 
然 是 普遍 收 全 的 ， 因 为 沿 一 个 哑 环 路 的 概率 传播 ， 将 形成 一 个 比率 为 环 路 上 转移 
概率 乘积 的 儿 何 级 数 ， 而 这 个 比率 值 一 般 小 于 1 ( 更 多 的 细节 请 参阅 附录 D )。 

若 HMM 中 的 一 条 从 状态 j 剂 状态 ;的 有 向 路 径 只 包含 对 应 于 删除 状态 的 内 部 节 
点 ， 则 该 路 径 被 称 为 “ 哑 路 径 "。 这 样 路 径 的 概率 为 其 所 包含 的 转移 概率 的 乘积 。 
我 们 将 从 j 到 i 的 哑 转 移 记 为 驴 ， 因 此 怠 是 从 j 到 i 的 所 有 旺 路 径 的 概率 和 。 在 标准 
HMM 构 架 中 ， 由 于 从 j 到 i; 最 多 只 能 有 一 条 哑 路 径 ， 忆 很 容易 计算 。 用 这 种 表示 法 ， 
前 向 传播 可 表示 为 首先 由 (7.5 ) 计算 所 有 生成 状态 的 ai(f+1)。 因 此 ， 删 除 状态 的 
前 向 变量 可 由 以 下 公式 计算 : 


















































a, (HI) = Ya, (41) 2 (7.7) 


JEE 








中 E 为 所 有 生成 状态 的 集合 。 值 得 注意 的 是 ,( 7.5 ) 和 (7.6 ) 所 定义 的 传播 过 
程 可 以 视 为 一 个 T 层 的 线性 神经 元 网 络 。 网 络 的 每 一 层 对 应 一 个 时 刻 :， 而 每 层 包 
含 M 个 单元 ， 每 个 单元 对 应 一 个 HMM 状 态 。 所 有 单元 都 是 线性 的 。 在 第 t+1 层 中 ， 
对 应 于 生成 状态 i 的 单元 有 一 个 斜率 为 ej 的 线性 转移 函数 。 由 此 看 来 ，HMM 中 
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的 似 然 度 计算 等 价 于 一 个 大 约 包 含 N 层 、 每 层 包 含 151 个 单元 的 线性 网 络 中 的 前 向 
传播 计算 过 程 。 删 除 状态 的 出 现在 同一 层 中 增加 了 一 些 连接 。 对 标准 HMM 构 架 
而 这 ， 尽 管 引 人 了 这 些 层 内 连接 ， 神 经 网 络 仍然 是 前 全 型 的 ， 因 此 (7.6 ) 在 传播 
中 仍 是 收敛 的 。 由 于 算法 的 主要 计算 内 容 在 于 更 新 每 层 W 个 单元 的 7 层 网 络 ， 故 
前 向 算法 的 计算 规模 约 为 OUM 刀 。 在 标准 HMM 构 架 中 ，M 和 7 的 数量 级 都 与 N 林 
F) CM=3N )， 央 此 前 向 传播 算法 的 计算 规模 约 为 O(N)。 

最 后 还 需 看 到 ， 应 用 前 向 变量 的 HMM 可 被 视 为 一 个 动态 混合 模型 。 这 是 
为 生成 字符 X 的 概率 可 被 分 解 为 L; aeo 


7.3.2 后 向 算法 


与 神经 网 络 类 似 ， 在 学 习 算 法 中 我 们 需要 一 个 后 向 传播 概率 。 后 向 算法 与 前 
襄 算 法 相反 。 我 们 定义 后 向 变量 为 系统 在 时 间 : 处 于 状态 ;时 :观察 到 从 X”*' 到 结束 
的 部 分 序列 的 概率 






































B,)=P(X"!--X?| Si, w) (7.8) 
BR 
Bing (T1 (7.9) 
递归 地 计算 生成 状态 6 的 传播 方程 为 o 
BO= $, BUDE (7.10) 
JEN (i) 
对 于 删除 状态 ， 
Bo > B Ota (TAL) 


JEN (i) 
经 过 对 生成 状态 变形 ， 上 述 方程 变 为 
BD= DB OD (7.12) 
jeE 
前 面 对 前 向 算法 的 说 明 都 可 以 应 用 于 后 向 算法 。 尤 其 对 于 标准 HMM 构 架 ， 


后 向 算法 的 计算 复杂 度 约 为 O(N”)。 
应 用 前 向 和 后 向 变量 ， 对 于 给 定 的 观察 序列 DO 和 模型 w， 我 们 很 容易 计算 系 
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SCHEME cde PAR A HY 


;()=P(S=i]0, w)= CA0 A0 MAOA Q] (713) 
XD=P(S =ilO, w Po TOBO 
HEN ER E R ER YA 


Qi(Di ernBi(t+1)/P(OWw) HjeE 
P(S"*'=j, $=ilO, w)= 








aB ep TP 
其 中 DD 为 删除 状态 集合 。 显 然 还 可 以 得 到 
OPS =10, w= Dy (7.15) 
jes 


通过 求 X(D 的 极 大 值 ， 我 们 可 以 确定 时 刻 ! 最 可 能 的 状态 。 但 在 解码 问题 中 ， 我 们 
关心 的 是 最 可 能 路 径 。 最 可 能 路 径 对 于 构架 学 习 和 序列 到 模型 的 匹配 也 很 有 用 。 
Viterbi 算 法 可 以 用 来 计算 最 可 能 路 径 。 它 是 动态 规划 的 另 一 个 应 用 ， 其 本 质 与 序 
列 比 对 算法 村 


7.3.3 Viterbi 算 法 











可 


对 于 Viterbi 算 法 ， 需 要 定义 变量 


6(D= maxP[ Dhw] (7.16) 











其 中 (为 生成 X…X' 并 结束 于 状态 的 “前 组 ”( prefix ) 路 径 。 因 此 ，6 的 是 与 
最 可 能 路 径 相关 的 概率 ， 该 路 径 产 牛 结束 于 状态 i 的 序列 0 的 前 ! 个 字符 。 这 些 变量 
可 用 类 似 于 前 向 算法 的 传播 机 制 进行 更 新 计算 ， 其 中 求 和 运算 被 求 极 大 值 运算 


ô (t+1)=[ max 6 (Drle (7.17) 
i 

















所 替代 用 于 生成 状态 ,而 
G1+1)=[ max 6 (+1)? (7.18) 
j 


则 用 于 删除 状态 。 与 前 向 算法 相 比 ， 其 收敛 性 更 显而易见 ; 删除 状态 的 循环 回路 


ORLE, WAHR, BERG (DEI max6 (Diyego 一 一 编者 注 
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根本 不 可 能 进入 最 佳 路 径 ， 因 为 它 将 降低 总 概率 而 没有 生成 任何 字符 。 为 了 恢复 
最 佳 路 径 ， 我 们 需要 在 每 个 时 刻 都 保存 能 够 回 淹 前 一 时 刻 最 佳 状态 的 数据 。 
Viterbi 算 法 获得 的 路 径 将 被 用 于 后 续 章 节 中 的 构架 学 习 和 多 重 序列 比 对 过 程 。 


7.3.4 数学 期 望 的 计算 


对 于 给 定 参 数 集 w 和 给 定 序列 D，P(r10, mw) 定义 了 隆 变量 的 一 个 后 验 分 布 
&( 四 ， 即 路 径 的 概率 r。 在 第 3 章 和 第 4 章 中 ， 我 们 已 经 看 到 后 验 分 布 2 扮演 了 一 个 
重要 的 角色 。 尤 其 在 学 习 的 过 程 中 ,需要 根据 Q 来 计算 数学 期 望 ， 例 如 :达到 状 
态 的 次 数 的 期 望 值 ， 字 符 X 从 状态 ;生成 的 次 数 的 期 望 值 ， 以 有 ij 转移 发 生 的 次 
数 的 期 望 值 等 。 由 于 HMM 的 乘积 因子 特性 ， 计 算 g 很 方便 ,而且 相 关 的 期 望 信 可 
以 通过 前 向 一 后 向 变量 获得 。 令 

oni, 2,0) 为 给 定 x 和 O， 达 到 状态 ;的 次 数 ; 

on (XO) 为 给 定 x 和 O， 从 状态 i 生成 字符 X 的 次 数 ; 

en (ji, tO) 为 给 定 z 和 0O，i-'j 转 移 发 生 的 次 数 。 

于 是 ， 相 应 的 各 项 期 望 值 可 计算 如 下 : 


























r 
nz Dini, x, OPCIO, w= X, yO (7.19) 
E s=0 
T . 
nx= Dali, X, z, OPO, w= 六 yO (7.20) 
x t=0,X'=X 


对 于 转移 概率 ， 类 似 的 公式 为 
T 
n= Lame i, n, OPLO, w= Dy O (721) 
x t=0 
至 此 ， 我 们 已 经 掌握 了 求解 HMM 学 习 问 题 的 全 部 工具 。 
学 习 算法 
HMM 的 学 习 算法 有 多 种 ， 包 括 Baum_Welch 算 法 或 EM ( 期 望 最 大 化 ) 算法 ， 
以 及 不 同形 式 的 梯度 下 降 和 其 他 GEM ( 广义 期 望 最 大 化 ) Se, 18799297 当然 ， 


还 可 以 应 用 模拟 退火 算法 ， 尽 管用 它 处 理 大 模型 不 太 现实 。 与 通常 一 样 ， 我 们 将 
集中 讨论 1 阶 贝 叶 斯 推断 : 通过 最 人 后 验 估计 (MAP) 寻求 最 优 参数 。 我 们 首先 
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使 用 最 大 似 然 估计 法 估计 生成 概率 参数 ， 转 移 概率 参数 的 计算 与 之 类 似 。 首 先 假 
设 训 练 集 只 包含 惟一 序列 0; 对 于 每 种 学 习 算 法 ， 先 推导 其 在 线 学 习 方 式 的 最 大 
似 然 估计 公式 ; 然后 简要 介绍 如 何 将 这 些 公式 修改 并 扩展 到 多 序列 成 批 学 习 中 ， 
以 及 何 时 引入 先 验 分 布 ( 应 用 MAP 法 )。 当 存在 K 个 训练 序列 时 ， 它 们 可 被 视 为 彼 
此 独立 的 ， 训 练 集 的 总 概率 等 于 各 序列 概率 的 乘积 。 对 于 HMM， 高 阶 贝 叶 斯 推 
断 目前 还 很 少 被 用 到 ， 甚 至 使 用 率 少 于 神经 网 络 ， 因 此 这 里 仅 做 简要 介绍 。 

仍 假 设 概率 P(O | w)=y POO, lw)。 在 最 大 似 然 估计 中 ， 希 望 使 拉 格 朗 日 算 
子 最 优化 ， 

















£=-logP(O|w) -| (7.22) 
x 了 


ieE ieS 
其 中 Ap 为 大 于 0 的 拉 格 朗 日 算 子 。 由 《7.1) 可 得 


OP(O, zw) _ nfi, X, 2,0) 





m = a PO rlw) (7.23) 
通过 令 拉 格 朗 日 算 子 的 偏 导数 为 0 求 极 值 ， 可 以 推 得 
Heo Dai. X, n, OQ =nix (7.24) 


类 似 地 ， 可 得 相应 的 转移 概率 参数 。@ 表 示 后 验 概率 P( 媳 0, w)。 通 过 对 整个 字符 
集 求 和 可 得 
zd, Dad, X, 2, = È nG, n, DOn (7.25) 
a X Ed 
于 是 ， 在 极 值 点 有 
È nixa oola) P(r|0,w)n(i,X, x0) 
YOR) DP(alo, wn no0) 


以 上 最 大 似 然 方 程 不 能 直接 求解 ， 因 为 后 验 分 布 @ 依 赖 于 eix 的 值 。 然 而 
(7.26) 给 出 了 一 种 简单 的 选 代 算法 : 首先 通过 @(m=P(r10, 由 估计 @， 然 后 应 用 
(7.26) 更 新 参数 ， 这 恰恰 就 是 HMM 的 EM 算法 。 


7.4.1 EM 算法 ( Baum-Weich 算 法 ) 
在 第 4 章 讨论 EM 算法 时 ， 我 们 定义 了 隐 层 上 的 能 量 函数 丸 四 =-logP(O, rlw) 


(7.26) 
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EM 算法 可 以 看 做 是 对 函数 Flw, Q)=E(N-H(Q) ( 温度 为 1 时 的 自由 能 函数 ) 的 最 
小 化 双 迁 代 过 程 ， 即 先 对 @ 再 对 mw 进行。 第 一 步 最 小 化 迭代 过 程 产 生 后 验 概率 
QCD=P(r10, w)=P(x, Olw)P(Olw)， 其 计算 方法 是 我 们 所 熟知 的 。 在 第 二 步 最 小 
化 选 代 过 程 中 ， 需 要 对 于 不 同 的 w 最 小 化 中 ， 同 时 需要 满足 概率 归 一 化 的 约束 。 由 
于 精 这 一 项 与 w 无 关 ， 最 终 需要 在 (六 =P(r10, w) 不 变 的 情况 下 ， 极 小 化 拉 格 朗 
日 算 子 





LE- Zaa- Lew Èn a- 2 (7.27) 
< £ 7 
应 用 (7.23 ) 可 得 
Were= Xni. X, x, O)CCD=nx (7.28) 
再 对 整个 字符 集 求 和 可 得 
a> dnt, X, 2, OQ Dnti, £, OVOH)=n, (1.29) 


这 些 公式 与 (7.24 ) A (7.25) 相同 。 可 以 进一步 验证 它们 对 应 于 某 一 极 小 值 ， 
于 是 EM 的 再 估计 公式 为 


D rli Xa, ola) 了 xy = "x 
Dn) Doro  % 


对 于 转移 概率 参数 ， 类 似 地 我 们 能 得 到 


,Dari OO) YT aÒ ny (731) 


i - T 

Sli OO E yy 玫 
因此 ，EM 算 法 是 用 前 向 和 后 向 过 程 来 实现 的 。 实 际 上 ，HMM 的 EM 算法 有 
时 又 被 称 为 前 向 一 后 向 算法 。ex 是 在 状态 ;观察 到 X 的 次 数 的 期 望 除 以 系统 到 达 状 
ASEH BSA ide AE MARS EBL PE GH ORL BY BL Bg OR EA 
PVD, ARS BT > BERANE BB BH SHORTS 
到 的 (7.22 ) 完全 根 同 。 这 是 HMM 和 乘积 因子 型 分 布 的 一 个 特性 ， 并 不 是 一 个 普 
遍 的 规律 。 


(7.30) 
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在 考虑 KR 个 序列 DO, …，Ox 时 ， 类 似 的 公式 可 写 为 


ie mn ae X. z. 0;) P (nlo;,w) (732) 

YD," 0)P (rlo;,w) 

可 以 很 方便 地 修改 这 些 公式 以 便 将 EM 算法 应 用 于 MAP 估 计 。 每 个 训练 序列 都 需 
要 一 个 前 向 和 一 个 后 向 传播 过 程 。 因 此 ，EM 算 法 的 计算 规模 约 为 O(KN?)。 

可 成 批 计算 的 EM 算法 已 被 广泛 应 用 于 HMM 学 习 。 然 而 ， 我 们 需要 意识 到 在 
线 应 用 HMM 仍 然 存在 问题 。 这 主要 由 于 EM 算法 与 梯度 下 降 法 不 同 ， 没 有 调节 学 
习 率 的 手段 。 受 每 个 孤立 的 训练 样本 影响 ，EM 算 法 会 以 较 大 的 迭代 步 幅 沿 递减 
方向 收敛 于 下 的 不 甚 理 想 的 局 部 极 小 值 。 在 梯度 下 降 法 中 ， 这 种 “地 毯 式 跳跃 
《carpet-jumping ) 效应 可 以 通过 采用 较 小 的 学 习 率 得 以 避免 。 

7.4.2 梯度 下 降 法 

负 对 数 似 然 度 的 梯度 下 降 公 式 ， 可 以 利用 HMM 和 神经 网 络 的 关联 以 及 反 向 

传播 公式 推导 得 出 。 在 这 里 ， 我 们 将 采用 参数 替换 方法 (reparameterization ) É 


接 推导 该 公式 ， 该 方法 等 价 于 使 用 归 一 化 约束 的 拉 格 朗 日 算 子 的 方法 。 我 们 用 以 
下 形式 的 归 一 化 的 指数 函数 对 HMM 进 行 参 数 蔡 换 ， 




















w, 


ee 和 i (7.33) 
dye Dae 

其 中 wx 和 wj 是 新 的 变量 。 这 一 参数 替换 有 两 个 优点 : (1) 改变 参数 w， 可 自动 保 

证 转移 和 生成 概率 分 布 的 妇 一 化 约束 ; (2) 转移 和 生成 概率 永远 不 为 0。 通 过 简 

单 的 运算 得 出 














oe, Ge 
went (l-ex) 和 Bing HEH (7.34) 


转移 概率 参数 与 此 类 似 。 利 用 链 规则 ， 
ðlogP (O|w) -= 了 AogP (Olw) dey 


wx Y ev Wix 





(7.35) 


进而 , 利用 (7.2)、(7.23 ) 和 从 (7.33 ) 到 (7.35 ) 的 各 式 中 得 到 负 对 数 似 然 度 
的 在 线 梯度 下 降 公 式 
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Aw EM Nynex) 和 Awn) (7.36) 


其 中 ”为 学 习 率 。 对 于 在 线 应 用 ，nix 和 nj 是 从 每 个 单一 序列 的 前 向 一 后 向 过 程 导 
出 的 次 数 的 期 望 值 。 通 过 对 所 有 训练 序列 求 和 ， 我 们 可 以 很 容易 地 导出 成 批 学 习 
的 梯度 下 降 公式 。 对 于 MAP 估 计 ， 需 要 在 在 线 学 习 的 梯度 下 降 公 式 中 添加 对 数 先 
验 概率 对 w 的 偏 导数 。 例 如 ， 每 个 参数 的 高 斯 先 验 分 布 都 需要 在 (7.36 ) 中 加 入 
一 个 衰减 权重 项 。 
和 BM 算 法 一 样 ， 梯 度 下 降 公 式 要 求 进行 一 次 前 向 传播 和 一 次 后 mea 
此 每 个 训练 循环 需要 OCKN”) 次 计算 。 在 实现 中 要 特别 小 心 ， 尽 量 减少 归 一 化 指数 
参数 计算 引入 的 开销 。 与 EM 算法 不 同 ,在 线 梯度 下 降 法 是 一 ei 
(smooth algorithm )。 参 考 文献 [ 39 ] 中 讨论 了 其 他 多 种 平滑 算法 。 平 滑 算法 的 一 
个 有 用 特性 是 很 容易 对 错误 样本 进行 校正 。 如 果 训 练 集中 侦 然 包含 有 一 个 错误 序 
列 ( 例如 该 序列 不 属于 被 建 模 的 序列 家 族 )， 我 们 对 该 序列 的 梯度 下 降 计算 结果 
进行 补偿 ， 便 可 很 容易 地 去 踪 其 对 模型 的 负面 影响 。 


7.4.3 Viterbi 学 习 算 法 


EM 算法 和 梯度 下 降 法 的 迭代 更 新 公式 都 基于 计算 所 有 隐 含 路 径 的 数学 期 望 。 
一 般 性 的 Viterbi 学 习 算 法 的 基本 思想 是 只 对 少数 可 能 路 径 进行 计算 ， 以 代替 对 全 
部 可 能 路 径 的 计算 ; 一 般 地 ， 仅 计算 每 个 序列 中 最 可 能 的 一 条 路 径 。 因 此 ， 对 所 
有 路 径 进 行 平均 的 生成 次 数 n(i, X, x, 0) 被 单一 值 a(i, X, (OERA AE 
径 z(O)， 状 态 泪 成 字符 X 的 次 数 所 代替 。 在 标准 HMM 构 架 中 ，n(i, X, ONAK 
0 或 1， 除 非 对 于 插入 状态 一 一 由 于 反复 插 人 同一 字符 , 它 偶尔 会 大 于 1。 因 此 ， 
简单 的 在 线 Viterbi EM 算法 没什么 意义 ， 因 为 模型 参数 在 绝 大 多 数 情况 下 仅 更 新 
为 0 或 1。 在 在 线 Viterbi 梯 度 下 降 法 中 ， 每 一 步 沿 Viterbi 路 径 上 的 任意 状态 i， 模 型 
参数 将 根据 以 下 公式 进行 更 新 : 


Aw Exe) 和 Awn) (7.37) 


车 状态 ;生成 字符 X (对 应 转移 i )， 则 Ex=1( 对 应 T=1 )， 否 则 Ex=0。 因 此 ， 将 
根据 由 训练 集 获得 的 频率 与 模型 的 概率 参数 之 间 的 差 值 ， 对 参数 进行 更 新 。 

在 一 些 文献 中 ， 利 用 Viterbi 学 习 算 法 快速 近似 相应 的 非 Viterbi 算 法 。 实 际 上 ， 
Viterbi 学 习 算 法 在 速度 方面 的 优势 并 不 显著 ， 其 速度 只 是 其 他 算法 的 2 倍 左右 ， 
为 Viterbi 算 法 在 计算 (0) 时 不 再 需要 反 向 传播 过 程 。 至 于 近似 程度 ，Viterbi 算 法 
比较 粗糙 ， 因 为 它 的 序列 似 然 度 一 般 不 会 在 最 佳 路 径 附 近 形 成 尖锐 的 峰值 。 因 此 ， 
无 论 是 在 学 习 过 程 中 还 是 在 最 终 的 模型 中 观察 到 Viterbi 算 法 和 非 Viterbi 算 法 之 问 
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存在 显著 差异 并 非 偶然 。 根 据 经 验 ，Viterbi 算 法 在 蛋白 质 家 族 建 模 中 通常 能 得 到 
好 的 结果 ， 但 在 DNA 基 本 组 成 建 模 ( 如 外 显 子 区 或 启动 子 区 建 模 ) 中 则 不 理想 ， 
在 这 些 问 题 中 使 用 非 Viterbi 算 法 的 结果 更 好 。 部 分 原因 可 能 在 于 最 佳 路 径 在 蛋白 
质 中 扮演 着 特别 的 角色 。 

实际 上 ， 可 以 从 另 一 个 角度 考察 Viterbi 算 法 的 本 质 : 优化 一 个 不 同 的 目标 天 
数 。 我 们 可 以 定义 一 个 新 的 概率 测度 P"， 进 而 在 序列 空间 上 定义 一 个 新 模型 ( 隐 
Viterbi 模 型 ); 























PY(OIw)= Pe Ow) (7.38) 
dP (Ow) 
Viterbi 算 法 变 为 极 小 化 以 下 公式 : 
K 
£= > -logPY (Ow) (7.39) 


k 


需要 注意 ,， 随 参数 w 变 化 ,最 佳 路 径 zr 会 随 之 不 连续 地 变化 ， 从 而 导致 上 也 不 连续 。 
显然 ， 在 MAP 估 计 中 使 用 Viterbi 算 法 ， 可 以 为 《7.39 ) 添加 一 个 正则 项 。 


7.4.4 HMM 学 习 算 法 的 其 他 问题 


一 般 地 ， 当 我 们 考虑 改进 学 习 算法 时 会 提出 许多 其 他 问题 ， 例 如 : 如 何平 衡 训 
Ak, OO 1 改变 学 习 率 ， 如 何 通过 估计 Hessian 似 然 矩 阵 来 利用 2 阶 信息 等 。 已 有 
许多 文献 讨论 这 些 问题 ， 鉴 于 篇 幅 ， 本 书 对 此 不 再 详 述 。 然 而 ， 对 于 标定 、 构 架 的 
选择 和 学 习 , 以 及 歧义 符号 等 具有 重要 实际 意义 的 问题 , 我 们 仍 在 此 给 予 简要 讨论 。 

标 定 

概率 P(AlO, w) 是 很 多 转移 概率 和 生成 概率 的 乘积 。 由 于 乘积 的 每 一 项 都 小 于 
1， 所 以 一 般 来 说 它 的 值 很 小 。 对 于 大 部 分 模型 ， 这 一 概率 值 将 超出 所 有 机 器 的 
精度 范围 ， 即 便 采用 双 精 度 浮 点 数 也 是 如 此 。 因 此 在 实现 学 习 算 法 时 ， 尤 其 是 前 
向 和 后 向 算法 ,我 们 将 面临 精度 下 溢 问 题 。 这 些 问题 可 以 通过 标定 过 程 加 以 解决 
即 在 传播 过 程 中 对 前 向 各 后 向 变量 进行 标定 以 避免 精度 下 游 。 标 定 过 程 的 技术 性 
比较 强 ， 我 们 将 在 附录 D 中 详细 介绍 。 在 Viterbi 学 习 中 ， 采 用 对 概率 取 对 数 的 方 
法 ， 可 以 很 容易 地 解决 精度 问题 。 


模型 构架 的 学 习 
一 个 很 自然 的 问题 是 能 否 道 过 训练 数据 获得 HMM 的 构架 。 目 前 已 有 一 些 通 
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过 学 习 建 立 一 般 化 HMM 构 架 的 算法 ， 例 如 参考 文献 [504] 中 介绍 的 方法 。 研 究 
人 员 甚至 结合 生物 序列 上 下 文 先 验 知识 ， 提 出 了 专门 的 构架 学 习 方法 。[ 93 1 参考 
文献 [ 504 ] 中 提出 的 方法 的 基本 想法 是 从 一 个 非常 复杂 的 模型 开始 ， 基 本 上 是 
每 个 字符 一 个 状态 ， 然 后 经 过 迄 代 合并 状态 。 选 择 合并 状态 以 及 终止 条 件 取决 于 
后 验 概率 的 评价 。 而 在 参考 文献 [ 193 ] 中 ， 初 始 模 型 为 一 个 小 规模 的 完全 连接 
的 HMM。 该 算法 在 迭代 过 程 中 删除 概率 很 低 的 转移 ， 并 且 复 制 连接 最 多 的 状态 ， 
直到 最 佳 路 径 的 概率 或 后 验 概 率 值 达 到 一 个 足够 的 水 平 。 这 两 种 算法 都 在 状态 数 
不 超过 50 的 小 规模 HEMM 模 型 上 获得 了 理想 的 实验 结果 。 这 些 方法 可 能 对 于 某 些 
问题 有 用 ， 然 而 它们 的 速度 都 很 慢 ， 在 目前 的 计算 机 上 很 难 实际 应 用 。 在 第 8 章 
中 我 们 将 看 到 ， 大 多 数 大 规模 HMM 都 没有 任何 先 验 知识 可 以 利用 。 拥 有 15| 个 状 
态 的 模型 的 所 有 可 能 的 构架 数目 当然 是 极 大 的 。 相 比 之 下 ， 有 关 构架 学 习 的 一 个 
更 具 澡 作 性 的 特例 是 通过 学 习 确 定 标准 EMM 构 架 的 长 度 N。 


模型 长 度 的 自 适应 调节 

到 目前 为 止 ， 在 有 关 标 准 EMM 构 架 的 方法 中 ， 都 将 N 设 为 建 模 序列 的 平均 长 
度 。 实 际 上 ， 采 用 这 种 简化 方法 效果 很 好 。 很 自然 ， 若 训练 之 后 发 现 这 个 长 度 N 
似乎 不 是 最 佳 值 ， 可 以 选取 一 个 新 的 长 度 值 重 新 开始 训练 。 

在 参考 文献 1 中 介绍 了 一 种 称 为 “外科” 的 算法 《surgery algorithm ), 
用 于 在 训练 过 程 中 动态 调整 HMM 的 长 度 。 这 种 算法 的 思想 是 根据 构架 的 整体 连 
接 模式 ， 在 必要 时 添加 或 删除 状态 。 如 果 在 建 模 序列 家 族 中 有 超过 50% 的 序列 用 
到 某 个 插 人 状态 ， 意 味 着 该 描 和 人 状态 将 在 超过 50% 的 相应 的 Viterbi 路 径 中 出 现 ， 
于 是 会 在 相应 的 位 置 建立 一 个 新 的 主 状 态 ， 同 时 建立 与 新 的 主 状态 配合 的 播 人 
和 删除 状态 。 新 状态 的 生成 概率 和 转移 概率 可 初始 化 为 相同 的 数值 。 类 似 地 ， 
如 果 某 个 删除 状态 在 多 于 50% 的 序列 中 用 到 ， 相 应 的 主 状态 以 及 与 之 配合 的 插入 
和 删除 状态 可 以 被 一 并 删除 。 剩 下 的 构架 的 左 侧 未 被 改变 ， 因 此 训练 过 程 可 继 
续 进 行 。 尽 管 这 一 方法 未 被 证 明 总 能 收敛 到 一 个 稳定 的 长 度 ， 但 在 实际 应 用 中 
它 似 乎 总 是 收敛 的 。 


构架 的 变 体 

正如 前 面 已 经 提 到 的 ， 还 有 许多 与 标准 HMM 构 架 相关 的 HMM 构 架 经 常 被 应 
用 于 分 子 生物 学 中 。 其 中 ， 多 重 HMM 构 架 《 如 图 8-5 ) 用 于 分 类 ， 环 状 HMM 构 
架 (如 图 8-16 ) 和 轮 状 HBMM 构 架 ( 如 图 8-17 ) 用 于 局 期 型 模式 的 建 模 。 标 准 
HMM 构 架 还 可 用 于 蛋白 质 二 级 结构 的 建 模 ，[!4@] 也 可 用 于 为 带 有 相似 折 释 类 型 
和 功能 的 蛋白 质 建立 二 级 结构 的 保守 模式 库 。 其 他 一 些 HMM 构 架 已 被 用 于 原核 
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7.5 


生物 0261 和 真 核 生物 7) 的 基因 检测 。 第 8 章 将 给 出 一 些 特定 的 应 用 例子 。 





歧义 符号 

由 于 测序 技术 尚 不 完美 ， 侦 尔 会 出 现 一 些 歧义 符号 。 例 如 ， 在 DNA 序 列 中 X 
代表 A、C、G、T 四 种 可 能 ， 在 蛋白 质 序列 中 B 代 表 天 冬 酰 氮 酸 或 天 冬 氮 酸 。 利 
用 HMM， 这 类 符号 很 容易 通过 多 种 方法 处 理 。 在 数据 库 搜索 中 ， 使 用 “可 疑 者 
Akii” (benefit of the doubt ) 策略 是 谨慎 的 做 法 。 应 用 这 种 策略 ， 在 计算 序列 似 
然 度 和 Viterbi 路 径 时 ， 一 个 歧义 符号 被 其 最 可 能 的 符号 候选 代替 。 另 外 ， 应 该 注 
意 那 些 歧义 符号 比例 高 得 不 正常 的 序列 ， 因 为 它们 很 可 能 导致 假 阳 性 。 








HMM 的 应 用 : 一 般 性 的 问题 


无 论 采用 哪 种 设计 和 训练 方法 ， 一 且 由 序列 家 族 成 功 地 得 到 HMM， 便 可 将 
其 用 于 一 系列 不 同 的 任务 ， 包 括 : 

1. 多 重 序列 比 对 ; 

2. 序列 和 片段 的 数据 挖掘 和 分 类 ; 

3. 结构 分 析 和 模式 识别 。 

所 有 这 些 任务 都 是 通过 对 给 定 序列 计算 与 模型 和 最 可 能 路 径 相 关 的 概率 ， 以 
及 分 析 模型 结构 本 身 完成 的 。 在 大 多 数 情 况 下 ， 使 用 HMM 技 术 能 够 很 好 地 完成 
这 些 任务 ,例如 多 重 序列 比 对 的 结果 可 以 和 专家 人 工 完成 的 结果 相 媲 美 。 有 关 
HMM 应 用 于 蛋白 质 和 DNA 分 析 领 域 中 的 详细 例子 将 在 第 8 章 中 讨论 。 可 以 将 
HMM 的 模型 库 组 织 成 层次 或 模块 结构 ， 以 便 产 生 逐 步 精细 化 的 序列 空间 区 域 的 
概率 模型 。 理 论 上 ，HMM 可 以 用 来 生成 与 目标 家 族 有 很 高 相似 性 的 “全 合成 序 
列 ”( de novo sequence )， 尽 管 这 一 特性 尚未 得 到 实际 应 用 。 


7.5.1 多 重 序列 比 对 


计算 一 个 序列 的 Viterbi 路 径 也 称 为 “序列 到 模型 的 匹配 ”。 通 过 一 种 高 效 的 
方法 两 两 比 对 多 条 Viterbi 路 径 ， 可 以 生 或 多 重 序列 比 对 数据 。[2334411 由 于 训练 
一 个 模型 往往 需要 较 长 的 时 间 ， 可 以 脱 机 进行 。 一 旦 完成 训练 过 程 ， 进 行 & 个 
序列 的 多 重 比 对 仅 需 计算 及 条 Viterbi 路 径 ， 因 此 计算 规模 大 约 只 有 OUKEN2)。 这 
一 规模 对 kK 是 线性 的 ， 显 著 优 于 多 维 线性 规划 比 对 算法 的 计算 规模 O(N*)， 它 对 
有 是 指数 的 。 而 且 从 某 种 意义 上 讲 ， 由 HMM 生 成 的 多 重 序列 比 对 数据 比 传统 比 
对 方法 产生 的 结果 更 丰富 。 实 际 上 ， 考 虑 用 传统 方法 对 两 个 序列 进行 比 对 ， 候 
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设 相 对 于 第 一 个 序列 ， 第 二 个 序列 在 给 定位 咋 有 一 个 间隙 。 这 个 间隙 可 以 来 自 
第 二 个 序列 上 的 一 个 删除 过 程 ， 也 可 以 来 自 第 一 个 序列 上 的 一 个 插 人 过 程 ， 它 
们 分 别 对 应 HMM 中 两 组 不 同 的 Viterbi 路 径 ， 而 传统 的 比 对 方法 无 法 区 分 它们 。 

可 以 从 另 一 个 角度 考察 这 一 问题 : 设想 传统 的 多 重 序列 比 对 可 以 通过 训练 一 
个 类 似 于 标准 HMM 构 架 的 HMM 构 架 产 生 ， 但 其 中 模型 的 长 度 固 定 设 为 最 长 匹配 
序列 的 长 度 ， 而 且 去 掉 所 有 的 插 人 状态 ， 仅 留 下 主 状态 和 删除 状态 。 因 此 ， 所 有 
Viterbi 路 径 只 由 主 状态 的 生成 过 程 和 对 应 于 主 状态 的 间隙 构成 。 但 在 任何 情况 下 ， 
由 同时 包含 插 人 和 删除 状态 的 HMM 生 成 的 多 重 序列 比 对 结果 显然 要 更 加 丰富 。 
而 且 事实 上 多 重 序列 比 对 结果 应 该 用 三 维 空间 表示 ， 而 不 是 使 用 传统 多 重 序列 比 
对 中 的 二 维 表示 《第 三 个 维度 是 为 生成 过 程 专门 设置 的 )。 由 于 绘图 上 的 困难 和 
大 们 的 习惯 ， 像 传统 的 比 对 一 样 ， 基 于 HMM 的 比 对 仍然 被 绘制 在 二 维 图 上 ， 而 
小 写字 母 经 常 被 留 做 表示 由 HMM 插 入 状态 生成 的 字符 。 

HMM 的 插入 和 删除 状态 与 序列 的 形式 操作 相对 应 。 一 个 重要 的 问题 是 ， 它 
们 是 否 以 及 如 何 与 进化 中 的 事件 相关 。 这 个 问题 当然 关系 到 系统 进化 树 的 构建 及 
其 与 HMM 、 多 重 序列 比 对 的 关系 。 标 准 HMM 构 架 本 身 并 没有 为 进化 过 程 提供 一 
个 好 的 概率 模型 ， 因 为 它 缺 乏 进化 过 程 所 需 的 树 状 结构 ， 对 替换 过 程 也 缺乏 一 种 
清晰 的 表示 ( 除 插 和 人 和 删除 外 )。 第 10 章 将 论 及 进化 的 概率 模型 。 

需要 提醒 的 是 : 上 述 的 HMM 多 重 序列 比 对 仅仅 基于 单个 的 HMM， 因 而 只 是 
完整 的 贝 叶 斯 处 理 过 程 的 第 一 步 。 即 便 对 于 一 个 很 简单 的 问题 ， 如 两 个 序列 中 的 
两 个 氨基 酸 能 否 相 互 匹配 ， 一 个 完整 的 贝 叶 斯 处 理 过 程 也 要 求 根据 某 一 后 验 分 布 
的 概率 值 在 所 有 HMM 上 进行 积分 以 给 出 最 终 答案 。 就 目前 所 知 ， 尚 未 在 生物 序 
列 的 HMM 上 计算 过 这 一 积分 值 ( 见 参考 文献 [ 583 ] )。 能 否 从 这 个 对 计算 要 求 
极 高 的 实践 扩展 中 得 到 更 多 的 收获 ， 对 此 我 们 没有 把 握 。 

最 后 ，HMM 还 可 以 和 蔡 换 矩阵 ~ 起 使 用 。!2”] HEMM 的 生成 概率 分 布 可 以 用 
于 计算 替换 矩阵 ， 而 蔡 换 矩阵 又 会 在 HMM 训 练 中 和 训练 之 后 影响 HMM。 对 于 规 
模 大 的 训练 集 ， 我 们 可 以 认为 大 部 分 蔡 换 信息 已 在 数据 中 出 现 ， 附 加 这 类 外 部 信 
息 将 不 产生 显著 的 好 处 。 


7.5.2 数据 挖 手 和 分 类 


给 定 一 个 训练 好 的 模型 ， 可 以 计算 任意 给 定 序列 ( 及 其 相关 的 Viterbi 路 径 ) 
的 概率 。 这 些 概率 分 值 可 用 于 判别 和 数据 库 检 索 ，[2438] 从 而 将 与 待 训练 序列 家 
族 相关 的 序列 从 数据 库 中 抽取 出 来 。 这 一 方法 可 用 于 全 序列 和 序列 片断 。[*! 有 
一 个 重要 的 问题 将 留待 第 8 章 进 一 步 考察 ， 脚 这 个 分 值 必 须 被 标定 为 序列 长 度 的 函 
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数 。 

HMM 还 应 用 于 分 类 问题 ， 例 如 对 多 个 蛋白 质 家 族 或 一 个 蛋白 质 家 族 的 多 个 亚 
家 族 进行 分 类 。 如 果 能 够 得 到 特定 类 别 的 训练 集 ， 这 个 问题 可 以 通过 为 每 个 类 别 
训练 一 个 模型 来 解决 。 我 们 曾经 用 这 种 方法 建立 了 两 个 HMM 模 型 ， 它 们 可 以 非常 
可 靠 地 判别 酷 气 酸 和 丝氨酸 / 苏 氨 酸 激酶 亚 家 族 。 和 否则 可 以 将 无 监督 聚 类 算法 与 
HMM 相 结合 ， 对 数据 集 进行 分 类 ， 如 珠 蛋 白 亚 家 族 的 分 类 ( 见 参考 文献 [344 ] 
及 第 8 章 )。 一 般 认 为 蛋白 质 亚 家 族 的 总 数 相对 较 少 ， 大 约 为 数 千 个 左右 。 112709) 
无 论 从 算法 还 是 计算 能 力 的 角度 看 ， 为 每 个 蛋白 质 家 族 训 练 一 个 HMM， 进 而 构成 
覆盖 所 有 蛋白 质 家 族 的 一 个 分 类 系统 已 经 成 为 可 行 。 这 种 全 局 分 类 系统 正在 开发 
中 ， 并 将 成 为 其 他 许多 研究 问题 的 有 用 辅助 工具 ， 例 如 基因 检测 、 蛋 白质 分 类 以 
及 结构 /功能 预测 。 [e971 


7.5.3 结构 分 析 和 模式 识别 


通过 考察 训练 得 刺 的 HMM 的 结构 ， 可 以 获得 更 多 的 信息 和 发 现 新 的 模式 。 
我 们 可 以 用 和 研究 神经 网 络 连接 相同 的 方法 ， 研 究 一 个 HMM 的 参数 。 较 高 的 生 
成 或 转移 概率 经 常 与 结构 /功能 上 很 重要 的 一 些 保守 区 域 或 模式 有 关 。 检 测 这 些 模 
式 的 一 个 便捷 办 法 是 ， 沿 模型 的 主干 方向 计算 生成 概率 分 布 的 信息 粮 。 其 他 任何 
与 位 置 有 关 的 函数 ， 例 如 朴 水 性 和 可 弯曲 性 ， 也 可 以 利用 HMM 概 率 进 行 平 均 并 
绘制 成 图 。 家 族 的 特征 模式 ， 例 如 蛋白 质 二 级 结构 的 特征 〈 ERK HE) 和 
DNA 中 的 高 可 弯曲 性 区 域 ， 更 容易 在 这 样 的 图 中 被 识别 出 来 。 这 是 由 于 个 别 序列 
的 变化 在 计算 数学 期 望 时 已 被 平滑 掉 了 。 其 他 一 些 模式 ， 如 周期 性 ， 则 可 以 通过 
分 析 模 型 的 结构 将 其 揭示 出 来 。 标 准 HMM 构 架 在 模式 检测 方面 的 先天 不 足 ， 将 
引导 我 们 设计 更 有 针对 性 的 构架 ， 例 如 轮 状 构架 和 环 状 构架 ， 以 加 强 局 期 性 的 信 
号 。 另 外 ， 使 用 HMM 人 能够 在 未 经 比 对 的 原始 数据 中 发 现 微弱 的 模式 ， 我 们 将 在 
第 8 章 中 给 出 几 个 对 比例 子 加 以 说 明 。 




























































































第 8 章 ” 隐 马 氏 模型 (HMM): 应 用 


8.1 在 蛋白 质 方面 的 应 用 


HMM 已 被 成 功 地 应 用 于 许多 和 蛋白质 家 族 ， 例如; 珠 蛋 白 、 免 疫 球 蛋 白 、 激 酶 
以 及 G 和 蛋白 偶 联 性 受 体 ( G-protein-coupled receptor ) ( 见 参 考 文献 [ 334,41,38 ] )。 
HMM 还 被 应 用 于 蛋白 质 二 级 结构 要 素 的 建 模 ， 如 oa 螺旋 和 蛋白质 超级 家 族 二 级 结 
构 的 保守 模式 。'*” 事实 上 ， 蛋 白质 家 族 数 据 库 ( Pfam ) '” 1 和 看 白质 家 族 的 二 
级 结构 数据 库 (FORESST ) O° 早 在 1997 年 底 就 已 建成 。 来 自 HMM 的 多 重 序列 比 
对 数据 也 已 出 现在 一 些 文献 中 。 对 于 大 量 的 HMM 比 对 试验 及 其 结果 ， 我 们 在 此 不 
下 一 一 袭 述 。 需 要 指出 的 是 ,研究 人 员 发 现在 大 多 数 情 况 下 ， 基 于 HMM 的 比 对 计 
算 结果 很 好 ， 其 精度 能 够 达到 结构 或 系统 进化 信息 (phylogenetic information ) 的 
人 工 多 重 序列 比 对 的 误差 限度 。 在 本 章 前 半 部 分 中 ， 我 们 将 依照 参考 文献 [38 ] 
和 [42 ] 的 思路 ， 重 点 介绍 HMM 在 一 个 特定 蛋白 质 家族 一 一 G 蛋 白 偶 联 性 受 体 
(GCR 或 GPCR ) 中 的 应 用 。 更 多 的 细节 请 参阅 相关 文献 。 


8.1.1 G 和 蛋白 偶 联 性 受 体 


G 和 蛋白 偶 联 性 受 体 是 一 个 多 样 性 的 跨 膜 蛋白 质 家 族 ， 它 们 能 够 转 导 由 激素 、 
神经 递 质 (neurotransmitter), “WK (odorant) 和 光 等 承载 的 多 种 细胞 外 信号 
(近期 的 有 关 综 述 见 参考 文献 [ 436,325,508,227,552 ] )。 尽 管 我 们 对 这 个 家 族 所 
有 成 员 的 转 导 功能 的 具体 生理 机 制 尚未 完全 了 解 ， 但 我 们 知道 在 大 多 数 情况 下 ， 
这 类 受 体能 激活 一 种 鸟 嗓 叭 核 苷 酸 结合 (G) 蛋白 。![422] 我 们 相信 该 家 族 中 的 所 
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有 受 体 都 有 类 似 的 结构 ， 它 的 特征 是 7 个 穿越 槛 水 性 膜 间距 的 o 螺 旋 。 这 7 个 路 膜 
区 通过 3 个 细胞 外 的 环 和 3 个 细胞 内 的 环 相连 接 。 受 体 的 N 端 (amino termini) 在 
细胞 外 ， 并 经 常 被 糖 基 化 ( glycosylated )， 而 C 端 (carboxyl termini ) 在 细胞 质 中 ， 
通常 被 磷酸 化 ( phosphorylated )。 这 些 螺旋 的 精确 三 维 绞 合 方式 和 一 般 性 三 级 结 
构 ， 还 有 待 进一步 了 解 。[ ”2 ] 

我 们 经 常 根据 递 质 的 类 型 把 这 个 家 族 分 为 一 些 亚 族 ， 例 如 毒 草 碱 受 体 
(muscarinic receptor )、 几 茶 酚 胺 受 体 (catecholamine receptor) 和 气味 受 体 
( odorant receptor) 等 等 。 从 方法 论 角 度 看 ，GPCR 家 族 颇具 研究 挑战 性 ， 其 成 员 
的 长 度 差 异 很 大 ， 平 均 长 度 也 相当 大 : 已 知 的 GPCR 长 度 从 200 到 1 200 个 氨基 酸 
不 等 。 该 家 族 具有 高 度 多 样 性 ， 某 些 成 员 间 共 间 的 残 基 不 足 20%。 


8.1.2 结构 特性 


在 参考 文献 [ 38 ] 中 ， 从 PROSITE 数 据 库 '”] 中 抽取 的 142 个 GPCR 序 列 用 于 
训练 一 个 N=430( 训练 集中 序列 的 平均 长 度 ) 的 HMM 构 架 ， 具体 方 法 是 在 整个 训 
练 集 上 应 用 在 线 Viterbi 学 习 算 法 并 经 过 12 个 迭代 周期 。 

作为 结构 特性 的 一 个 例子 ， 图 8-1 给 出 了 相应 模型 主 状态 上 生成 概率 分 布 的 
信息 炉 。 信 息 炉 的 振幅 谱 中 所 包含 的 7 个 主要 的 波动 与 ?个 跨 膜 区 域 直 接 相 关 。 于 
是 我 们 得 到 了 第 一 个 近似 推断 :那些 牙 水 区 域 比较 稳定 ， 因 而 与 信息 今 较 低 的 区 
域 相关 。HMM 在 没有 任何 关于 a 螺旋 或 路 水 性 的 先 验 知识 的 情况 下 ， 成 功 地 发 现 
了 这 一 结构 特性 。 
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8.1.3 原始 分 值 的 统计 





为 了 测试 模型 的 鉴别 能 力 ， 我 们 用 和 GPCR 相 同 的 平均 成 分 组 合生 成 了 一 个 
1 600 个 随机 序列 的 测试 集 : 长 度 为 300、350、400、450、500、550、600、650、700、 

























































750、800、1000 的 14 组 序列 ， 每 组 100 个 序列 ; 长 度 为 1 500 和 2 000 的 2 组 序列 ， 每 
组 200 个 序列 。 对 于 任意 序列 ， 无 论 随机 与 否 ， 其 原始 分 值 都 通过 模型 计算 获得 。 
某 一 序列 0 的 原始 分 值 是 对 应 于 相关 Viterbi 路 径 概率 的 负 对 数 。 所 有 随机 序列 的 
原始 分 值 、GPCR 训 练 集中 序列 的 分 值 以 及 SWISS-PROT 数 据 库 中 全 部 序列 的 分 
值 都 被 描绘 在 图 8-2 中 。 

8- 
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中 
地 
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8- x 随机 生成 序列 

+GPCR 训 练 序列 
g) SWISS-PROT 检 验 序列 
0 500 1000 1500 2000 
序列 长 度 


图 8-2 最 优 Viterbi 路 径 概率 的 负 对 数 分 值 


图 示 序 列 包括 142 个 GPCR 训 练 序列 ，SWISS-PROT 数 据 库 中 所 有 长 度 小 于 等 于 2 000 的 序列 ， 以 及 220 
个 平均 成 分 组 合 与 GPCR 训 练 集 相同 的 随机 生成 序列 。 这 些 序列 分 成 长 庆 为 300、350、400、450、500、 
550、600、650、?700、750、800 的 11 组 ， 每 组 各 20 个 。 回 归 线 由 220 个 随机 序列 氢 合 而 得 。 


该 模型 可 以 清晰 地 鉴别 平均 成 分 组 合 相 同 的 随机 序列 和 真实 的 GPCR 序 列 。 
与 以 前 的 实验 4284] 相 一 致 ， 随 机 序列 的 分 值 和 SWISS-PROT 序 列 的 分 值 沿 着 2 


条 相似 的 直线 聚集 。 沿 某 一 直线 聚集 意味 着 在 序列 上 








添加 1 个 氨基 酸 的 平均 代价 


近似 为 一 常数 。 在 很 短 的 序列 中 ， 这 一 线性 特征 不 再 保持 ， 因 为 它们 对 应 那些 不 
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正规 的 Viterbi 路 径 (包含 许多 删除 状态 的 路 径 }。 而 对 于 较 长 的 序列 ( 超过 模型 长 
度 )， 这 一 线性 特征 的 拟 合 精度 随 序列 长 度 的 增加 而 增加 。 因 为 对 于 平均 成 分 组 
合 固定 的 Viterbi 路 径 ， 若 其 长 度 很 大 ， 则 必定 高 度 依赖 于 插 人 状态 。 而 且 实际 上 ， 
系统 在 一 些 特定 的 插 人 状态 上 还 被 迫 循 环 多 次 ， 这 种 情况 在 路 径 长 度 趋 于 无 限 大 
时 将 成 为 系统 的 主导 行为 。 这 些 占 主导 地 位 的 插 人 状态 是 代价 最 小 的 状态 〈 概率 
最 大 )。 很 容易 看 到 ， 对 于 特定 的 插 和 人 人 状态， 其 代价 依 玫 于 两 个 同等 重要 的 素 : 
自转 移 概 率 坟 以 及 生成 概率 向 量 ecx 与 序列 的 特定 概率 分 布 之 间 的 互 米 。 更 准确 地 
讲 ， 如 果 我 们 把 由 特定 概率 分 布 P=(p 生 成 的 随机 长 序列 的 分 值 看 做 序列 长 度 的 
函数 ， 相 应 的 分 值 将 沿 一 条 回归 线 隧 集 ， 其 斜率 为 


minl-logtu 了 pxlogeoqd (8.1) 
x 
















































































进而 ， 对 于 较 大 的 固定 长 度 !， 分 什 近 似 于 正 态 分 布 (根据 中 心 极限 定理 ), 方差 为 
LLE, (log’e,,-Ep (loge,y) ]=/Varp[loge,y ] (8.2) 


值得 注意 的 是 ， 分 值 的 标准 差 随 长 度 [ 的 平方 根 增 长 。 关 于 这 些 结果 的 证 明 以 
及 更 多 的 网 节 ， 兄 参考 文献 [38 ] 。 


表 8-1 平均 成 分 组 合 与 GPCR 训 练 集 相 亲 的 随机 序列 的 分 值 据 [ 据 8.2) ] 












































平均 序列 长 度 预测 平均 分 值 实验 分 值 方 北 
I 序列 数 实验 平均 分 值 | 3 0g8h122.11 0.667 BAME 
300 100 10414 1033,5 13.24 1143 
350 100 11874 1185.4 13.12 12.34 
400 100 1337.6 13373 12.50 13.20 
450 100 1487.6 1489.2 16.85 14.00 
500 100 16385 16411 13.74 145.75 
550 100 1790.3 1793.0 15.26 15.47 
600 100 15444 | 19449 16.70 16.16 
650 100 2093.3 2096.8 16.54 16.82 
700 100 2250.6 2248.7 18.65 17.46 
750 100 3397.9 2 400.6 16.96 18.07 
800 100 2552.5 2552.5 19.66 18.66 
1000 100 31602 3160.1 21.62 20.87 
1500 200 4678.9 4679.1 25.51 25.56 
2-000 200 6199.1 6198.1 29.59 20.51 

















上 述 斜 率 公式 是 一 个 典型 的 渐 近 公式 ， 它 不 一 定 适用 于 相对 较 短 的 序列 ， 虽 
然 实 验 中 的 大 部 分 序列 并 不 长 。 在 上 述 模型 中 ， 对 于 平均 成 分 组 合 与 GPCR 相 同 
的 序列 ， 最 优 插 入 状态 为 第 20 号 插入 状态 。 实 验 得 到 的 回归 直线 方程 为 
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y=3.038}+122.11, Ti (8.1) 给 出 的 斜率 预测 值 为 3.039。 由 《8.2 ) 估计 ， 标 准 差 
按 o~0.66 Vi 随 长 度 增长 。 实 验 中 得 到 的 标准 差 与 序列 长 度 平方 根 之 间 的 回归 关 
系 为 0~0.63 JF +1.22。 从 表 8-1 中 可 以 看 到 ， 理 论 佑 计 和 实验 结果 符合 得 很 好 。 
一 般 而 言 ， 预 测 精度 会 随 长 度 增 大 而 增 大 ， 这 点 对 于 标准 差 尤为 明显 。 然 而 ， 在 
上 述 试 验 中 ，(8.1) 和 《8.2 ) 对 于 长 度 与 模型 长 度 相当 甚至 短 于 模型 长 度 的 较 短 
序列 ， 仍 然 相 当 准 确 。 对 于 平均 成 分 组 合 与 SWISS-PROT 数 据 库 相间 的 随机 测试 
R, 我们 可 以 得 到 类 似 的 试验 结果 。 


8.1.4 分 值 归 一 化 、 数 据 库 搜索 和 鉴别 测试 


在 完成 上 述 实验 的 统计 分 析 后 ， 我 们 开始 研究 如 何 进行 鉴别 测试 这 个 基本 问 
题 ， 即 如 何 通过 算法 决定 某 一 给 定 序列 是 否 属 于 该 GPCR 家 族 。 一 个 很 自然 的 想 
法 是 利用 模型 计算 出 的 分 值 来 鉴别 GPCR 序 列 和 非 GPCR 序 列 。 然 而 ， 我 们 并 不 能 
直接 使 用 原始 分 值 : 首先， 原始 分 值 倾向 于 随 序列 长 度 增 加 而 增加 ; 其 次 ， 原始 
分 值 的 离散 程度 在 序列 长 度 不 同时 差异 较 大 ， 至 少 对 于 较 长 的 随机 生成 的 序列 ， 
其 离散 程度 随 长 度 的 平方 根 增长 。 因 此 ， 我 们 需要 先 对 原始 分 值 进行 中 心 化 和 标 
定 。 

这 个 归 一 化 的 过 程 可 以 通过 几 种 方式 完成 。 为 了 进行 中 心 化 ， 我 们 可 以 在 不 
同 长 度 上 对 实验 结果 进行 平均 ， 或 者 采用 实验 得 到 的 回归 线 作为 平均 值 ， 或 者 直 
接 采用 (8.1) 和 (8.2 ) 估计 的 平均 值 。 基 于 不 同 的 目标 ， 基 准 数据 (base level) 
可 以 根据 平均 成 分 组 合 相似 的 随机 序列 或 者 根据 某 一 真实 数据 库 〔 如 SWISS- 
PROT) 中 的 序列 计算 获得 。 在 上 述 实验 中 ， 这 两 者 是 相似 的 ， 但 稍 有 不 同 。 为 
了 进行 标定 ， 我 们 可 以 采用 实验 得 到 的 标准 差 或 者 理论 估计 的 数值 ， 它 们 同样 可 
以 由 不 同 的 数据 源 计 算 获 得 ， 如 上 述 的 SWISS-PROT 数 据 库 或 成 分 组 合 相似 的 随 
机 序列 。 由 于 每 种 方法 都 有 其 优 缺 点 ， 因 此 在 实际 应 用 中 ， 我 们 应 该 尝试 多 种 不 
间 的 方法 。 一 般 来 说 ， 实 验 得 到 的 估计 更 准确 ， 但 相应 的 代价 也 会 大 一 些 ， 特 别 
是 对 于 较 长 的 序列 ， 因 为 计算 量 O( 六 随 序 列 长 度 的 平方 增长 。 

利用 真实 的 数据 库 进行 中 心 化 或 标定 时 ， 如 果 在 我 们 关心 的 长 度 区 向 内 ， 
数据 库 只 能 提供 很 少 的 序列 ， 实 验 结果 会 有 些 问题 ， 如 果 数 据 库 中 有 些 认 列 属 
于 模型 要 预测 家 族 ， 对 此 我 们 事先 一 无 所 知 ， 因 而 没 能 把 它们 除去 ， 实 验 结 果 
同样 也 会 有 问题 。 尤 其 危险 的 是 将 这 些 数据 引入 标准 差 的 估计 。 这 里 我 们 有 必 
要 采用 一 种 选 代 算法 ， 其 中 每 一 步 都 必须 根据 前 一 步 的 计算 结果 剔除 数据 库 中 
属于 模型 家 族 的 一 些 序列 ， 从 而 计算 出 一 个 新 的 标准 差 。 这 个 新 的 标准 差 用 于 
生成 一 组 新 的 归 一 化 分 值 ， 间 时 推断 出 属于 模型 家 族 的 一 组 新 的 数据 库 序列 。 
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另 一 个 一 般 性 的 问题 出 在 短 序列 上 ， 因 为 短 序列 的 行为 经 常 有 别 于 很 长 的 序列 。 
在 某 些 问题 中 ， 对 短 序 列 要 应 用 不 同 的 归 一 化 算法 。 最 后 ， 对 于 一 个 HMM 模 型 
库 ， 平 均 成 分 组 合 与 SWISS-PROT 数 据 库 相 同 的 一 组 固定 随机 序列 适用 多 个 不 
同 的 模型 。 

在 上 述 GPCR 实 验 中 ， 对 于 长 度 为 /的 任意 序列 O， 我 们 用 具有 相似 平均 成 分 
组 合 的 随机 序列 的 分 值 与 实验 得 到 的 回归 线 的 残 差 除 以 由 《8.2 ) 计算 出 的 近似 标 
准 差 作 为 归 一 化 分 值 宅 s(O): 


























{3.03814+-122.11-£(0)] 
0. 


6610 (8.3) 


E(O)= 
其 中 下 (O) 是 Viterbi 路 径 概 率 的 负 对 数 。 剩 下 的 问题 是 如 何 选取 鉴别 阐 值 。 这 里 ， 
标识 为 UK33-HCMVA 的 训练 序列 取得 最 小 分 值 16.03。 这 是 一 个 孤立 的 分 值 ， 因 
为 没有 任何 其 他 分 值 小 于 18。 因 此 上 鉴别 阐 值 可 以 设 在 16 或 更 大 一 些 。 通 过 去 除 长 
度 超过 最 大 GPCR 序 列 长 度 的 超 长 序列 以 及 包含 歧义 氨基 酸 的 序列 ， 基 于 上 述 归 
一 化 分 值 的 搜索 算法 在 阐 值 为 16 时 ， 达 到 没有 假 阴 性 和 两 个 假 阳性 的 精度 水 平 
在 赂 值 为 18 时 ， 达 到 一 个 假 阴性 和 没有 假 阳 性 的 精度 水 平 。 对 于 短 序列 (长 度 小 
于 模型 长 度 ),( 8.2 ) 不 一 定 是 一 个 准确 的 近似 ， 于 是 我 们 需要 去 尝试 某 种 混合 方 
案 ， 例 如 用 短 序列 〈! < N) 的 实验 结果 计算 出 归 一 化 系数 ， 将 ( 8.2 ) 用 于 长 序列 
(1>N) 等 。 最 后 ,一 组 固定 长 度 的 随机 序列 中 的 极端 分 值 遵从 一 个 极 值 分 布 
这 一 特征 可 以 帮助 我 们 选择 阔 值 。!55201 


8.1.5 亲 水 性 图 


由 于 GPCR 家 族 带 有 特定 的 结构 ， 一 个 合理 的 推论 是 : 我 们 有 可 能 根据 某 一 
公认 的 亲 水 性 标 度 ， 通 过 绘制 序列 的 亲 水 性 图 ， 轻 易 地 鉴别 某 一 给 定 的 序列 是 否 
属于 该 家 族 。 1%] 如 果真 是 这 样 ,基于 HMM 的 方法 在 鉴别 实验 中 将 不 再 那么 重要 ， 
至 少 对 于 这 个 特定 的 家 族 而 言 。 为 了 验证 这 一 推论 ， 我 们 为 许多 序列 绘制 了 窗口 
宽度 为 20 个 氨基 酸 的 亲 水 性 图 。 图 8-3 给 出 了 其 中 三 个 序列 的 例子 。 正 如 我 们 看 
到 的 ， 这 些 图 中 充满 噪声 和 歧义 氨基 酸 。 因 此 ， 我 们 似乎 不 太 可 能 仅仅 通过 亲 水 
性 图 得 到 很 好 的 识别 率 。 保 守 和 模式 、 亲 水 性 图 和 HMM 应 被 视 为 一 些 互补 的 技术 。 
正如 第 7 章 所 介绍 的 ， 我 们 可 以 根据 HMM 的 概率 分 值 绘制 亲 水 性 图 。 在 这 
样 的 图 中 ( 如 图 8-4 )， 显 示 的 是 每 个 位 置 上 的 亲 水 性 期 望 值 ， 而 不 是 个 别 序 列 
在 特定 位 置 上 的 亲 水 性 观测 值 。 结 果 ， 信 号 被 放大 了 ，? 个 跨 膜 区 被 清晰 地 标识 
出 来 。 
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图 8-3 长 度 小 于 1 000 的 三 个 GPCR 序 列 的 亲 水 性 图 ( 窗口 宽度 为 20 个 氨基 酸 } 


织 轴 表示 在 特定 的 位 置 上 ， 将 一 个 假想 的 由 20 个 氨基 酸 构成 的 a 所 旋 从 膜 内 移动 到 膜 外 所 需要 的 自由 
能 。 达 到 20 keal/mol 或 更 高 的 峰值 通常 预示 荐 该 位 置 可 能 存在 一 个 跨 膜 的 c 购 旋 。 





亲 水 性 














1 ni 
0 50 100 150 200 250 300 350 400 


HMM 主 态 


图 8-4 GPCR 相 关 HMM 的 亲 水 性 图 


8.1.6 细菌 视 紫红 质 


细菌 视 紫 红 质 ( bacteriorhodopsin ) ( 简要 综述 见 参考 文献 【317 1， 结 构 模 型 
见 [248 ] ) 是 一 种 带 有 ?个 跨 膜 区 域 的 蛋白 质 ， 它 的 功能 类 似 于 Halobacterium 
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halobium 中 的 一 种 光驱 动 的 质子 夺 (p 





roton pump )。 虽 然 其 功能 与 视 紫红 质 


(rhodopsin ) 有 关 ， 但 它 并 不 是 一 种 GPCR。 细 菌 视 紫 红 质 和 GPCR 在 结构 和 进化 





上 的 关系 目前 尚 不 完全 清楚 。 对 于 参考 文献 [411 ] 4 


始 序列 ，HMM 计 算得 到 的 原始 分 值 为 85 
稍 有 不 同 的 序列 ， 该 原始 分 值 为 851.62。 
两 个 分 值 实际 上 非常 接近 了 





稍 低 于 该 回归 线 。 上 述 第 一 个 序列 的 残 差 为 23.26， 由 【8.3 ) 算得 其 





上 给 出 的 细菌 祝 紫红 质 的 原 
2.27; 而 对 于 参考 文献 [318 ] 中 给 出 的 
由 于 细菌 视 紫 红 质 的 序列 长 度 二 248， 这 





F 从 平均 成 分 组 合 相 似 的 随机 序列 得 到 的 回归 线 ， 只 是 





归 一 化 分 值 





为 2.23。 以 上 结果 证 实 了 细菌 视 紫红 质 不 是 一 种 GPCR， 这 与 细菌 视 紫红 质 和 


GPCR 之 间 缺 乏 显著 的 同 源 性 这 个 结论 相 

参考 文献 [ 414 ] 4 
更 高 的 同 源 性 水 了 
子 倒 位 彼此 相关 。 于 











个 螺旋 并 按 (5, 6, 7, 2, 3, 4, 1 ) 的 顺序 如 
的 HMM 原 始 分 值 为 840.98。 尽 管 这 个 分 值 
比较 接近 于 GPCR， 但 它 与 原始 序列 的 分 值 并 
的 假说 提供 足够 有 力 的 支持 。 由 子 细菌 视 紫 
红 质 的 序列 相对 较 短 以 及 存在 非 螺 旋 区 域 ， 这 些 都 可 能 对 HMM 的 结果 产生 本 
此 在 这 方面 我 们 还 需要 进一步 研究 。 





细胞 内 的 区 域 保持 不 变 。 这 个 人 工序 列 





分 值 似乎 不 能 对 参考 文献 [414 ] 中 








影响 ， 
8.1.7 分 类 











“分 类 ”是 指 将 某 一 序列 家 族 组 织 成 一 些 了 


和 有 一 个 观点 : 通过 改变 各 螺旋 之 间 的 线性 
站， 因此 从 进化 的 角度 看 ， 细 菌 视 紫 红 质 与 GPCR 可 
是 ， 我 们 依照 文中 建议 的 方式 ， 通 过 移动 细菌 视 紫 红 质 的 7 


一 致 。 





医 序 可 以 得 到 
[能 通过 外 显 





新 排列 构造 出 一 个 新 的 序列 。 细 胞 外 和 





f 没 有 显著 差异 。 由 此 看 来 ，HMM 的 








要 


亚 族 。 分 类 是 非常 有 用 的 ， 例 如 在 





系统 进化 的 重 构 方 面 。 利 用 HMM 进 行 分 类 至 少 有 以 下 两 种 方法 : (1) 采用 竞争 


学 习 算法 了 





F 行 地 训练 多 个 模型 ( 图 8-5 ) 


的 聚 类 。 第 一 种 方法 在 这 里 不 太 适 合 ， 因 为 假设 我 们 需要 了 
练 集中 的 序列 总 数 〈 尤其 对 某 些 受 体 


有 训 
我 们 需要 开发 更 强大 的 算法 ， 如 在 模型 
提供 更 多 序列 的 新 数据 库 。 

对 
图 示 )， 可 以 清晰 地 看 到 在 对 应 于 不 
和 人 关系 。 例 如， 在 插 人 状态 20 上 ， 





E 











步 
和 


























各 二 种 方法 ， 通 过 观察 可 视 化 多 各 





a 0 (2 ) 利用 同一 模型 中 概率 和 路 径 
F 行 训练 15 个 模型 ， 现 
亚 族 而 言 ) 是 远 远 不 够 的 。 为 了 分 类 ， 
ph 包 含 更 多 的 先 验 知识 ， 同 时 还 需要 能 够 








序列 比 对 过 程 〈 对 算法 执行 过 程 的 逐 
同 受 体 子 类 的 Viterbi 路 径 之 间 ， 存 在 聚集 
所 有 促 甲 状 逐 素 受 体 前 体 (thyrotropin 





receptor precursor, TSHR ) 都 有 一 个 很 长 的 初始 循环 ， 该 状态 也 是 (8.1) 的 最 优 
状态 。 有 趣 的 是 ,同样 的 现象 也 存在 于 促 黄体 激素 - 促 性 腺 激素 受 体 前 体 


{ lutropin-gonadotropic hormone receptor 


precursor, LSHR ) 序列 中 。 在 这 里 ， 我 
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图 8-5 分 类 HMM 


这 是 参考 文献 [ 334 ) 中 用 于 蛋白 质 家 族 分 类 的 多 HMM 构 架 示意 图 。 在 初始 状态 和 终止 状态 间 的 每 一 
个 方 框 表示 一 个 标准 HMM 构 架 。 
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图 8-6 AMAMGPCRA NAMA EAREN ( 归 一 化 分 值 ) 直方 图 


嗅觉 受 体 最 接近 于 随机 序列 。 肾 上 沾 素 能 受 体 的 分 值 呈现 出 最 强 的 约束 ， 并 且 双 离 回归 线 最 远 。 不 同 
类 的 受 体 倾向 于 在 不 同 的 滤 离 上 素 集 。 血 管 紧张 有 受 体 的 距离 分 布 非常 狭窄 。 
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们 并 不 想 利 用 这 类 关系 系统 化 地 对 GPCR 进 行 分 类 ， 我 们 只 想 根 据 受 体 主要 亚 族 
的 已 有 分 类 ,研究 HMM 分 值 ( 在 算法 执行 过 程 中 ) 的 特点 。 
针对 这 - -日 的 ， 我 们 首先 对 所 有 受 体 类 别 抽取 至 少 7 个 有 代表 性 的 序列 ， 以 
避免 主体 偏 傈 (major bias effect )。 受 体 的 分 类 和 各 类 中 相应 的 序列 数量 为 R 
觉 (olfactory ) (114), ARTF (adenosine ) (95), PUA (opsin) (31+). 5~ 
羟色胺 (serotonin) (184), Mm BIKA (angiotensin) (70), SBR 
(dopamine ) (124), ZENER (acetylcholine) ( 18 个 )、 肾 上 腺 素 能 受 体 
(adrenergic ) ( 26 个 )， 共 计 132 个 序列 ， 代 表 了 从 SWISS-PROT 中 搜索 所 得 的 扩展 
GPCR 数 据 库 中 62 多 的 序列 。 图 8-6 是 按 以 上 方法 选择 的 8 类 受 体 序列 相对 于 随机 
回归 线 的 距离 (或 归 一 化 分 值 ) 的 直方 图 。 归 一 化 分 值 的 取 值 范围 为 20~44， 直 
方 图 的 柱 体 宽度 为 2。 
给 定 受 体 亚 族 中 ,序列 在 某 些 特 定 的 归 一 化 分 值 附 近 聚 集 的 现象 是 非常 引 人 
注目 的 。 嗅 觉 受 体 最 接近 于 随机 序列 ， 这 并 不 奇怪 ， 因 为 这 类 受 体 需要 与 很 多 可 
能 的 气味 相互 作用 。 而 肾上腺 素 能 受 体 则 距 随机 回归 线 最 远 ， 因 而 表现 为 受 约 东 
最 强 的 一 类 受 体 。 每 类 爱 体 的 标准 差 也 有 显著 差异 。 例 如 ， 血 管 紧张 肽 受 体 仅 在 
一 个 窗 带 上 取 值 ， 并 且 只 有 一 种 已 知 类 型 ， 而 祝 蛋白 受 体 的 取 值 范围 则 宽 得 多 。 
大 多 数 亚 族 的 直方 图 呈 钟 形 分 布 ， 但 也 有 例外 。 视 蛋白 表现 为 双 模 态 (bimodal ) 
分 布 ， 这 可 能 是 由 于 视 贷 白 受 体 亚 族 中 还 存在 更 小 的 子 类 。 第 二 个 峰值 绝 大 部 分 
对 应 于 视 紫红 质 ( OPSD ) 序列 ， 还 有 少数 对 应 于 红色 敏感 视 蛋白 (red-sensitive 
opsins, OPSR )。 这 两 个 峰值 的 在 在 似乎 不 是 由 状 椎 动物 视 蛋 白 和 无 脊椎 动物 视 蛋 
日 之 间 的 差异 引起 的 。 在 林 来 的 数据 库 中 ， 有 可 能 进一步 提高 分 辨 率 并 降低 采样 
误差 的 影响 。 然 而 ， 以 上 结 朵 已 经 足以 揭示 : 基于 HMM 的 序列 分 值 与 序列 素 属 
于 给 定 受 体 亚 族 之 间 有 很 强 的 相关 件 。 另 一 方面 ， 值 得 注意 的 是 ， 单 纯 从 分 值 的 
直方 图 出 发 ， 在 不 引信 任何 关于 受 体 类 型 的 先 验 知识 的 情况 下 ， 我 们 很 难 发 现 隐 
藏 在 序列 后 面 的 分 类 结构 。 整 个 GPCR 家 族 的 详尽 分 类 以 及 完整 的 系统 进化 重 构 
已 超出 本 章 的 讨论 范围 。 


8.1.8 EST 和 cDNA 中 的 片断 发 现 


作为 过 去 几 年 中 EST 和 cDNA 测序 工作 的 结果 ， 已 经 有 一 些 对 应 于 蛋白 质 片 
断 的 DNA 序 列 数据 库 。 于 是 我 们 自然 会 对 识别 和 分 类 这 些 片断 ， 以 及 从 中 发 现 一 
些 新 信息 感 兴趣 。HMM 可 以 从 多 个 方面 适应 这 些 工作 。 一 种 显然 的 可 能 性 是 ， 
对 于 给 定 的 蛋白 质 家 族 ， 我 们 可 以 训练 不 同 的 模型 以 识别 蛋白 质 的 不 同 部 分 。 这 
里 我 们 用 GPCR 家 族 和 人 工 生成 的 片断 进行 一 些 初步 的 测试 。 假 设 我 们 感 兴趣 的 


































































































































































































片断 长 度 为 !/=150， 我 们 会 同 
考察 范围 。 测 序 中 的 噪声 主 


基 改 变 ， 可 以 将 其 近似 为 外 











要 来 源 于 } 
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时 考察 更 短 的 序列 。 另 外 ， 我 们 将 序列 噪声 也 纳入 
将 氨基 酸 转换 为 DNA 时 引 人 的 随机 独立 的 碱 
定 的 噪声 概率 p。 我 们 将 集中 考察 三 个 长 度 等 级 : 








1=150, 1 
我 们 首先 构造 5 个 数据 集 ， 
从 GPCR 训 练 集 的 142 个 序列 中 按 随机 
断 是 从 一 个 更 大 的 GPCR 数 据 库 " 
的 200 个 长 度 为 150 的 片断 ， 其 平均 成 
激酶 序列 数据 库 中 随机 抽取 的 长 度 为 
集 同 样 的 方法 从 SWISS-PROT 数 据 库 

与 逐 项 比 对 类 似 ，HMM 可 用 




















模型 全 局 比 对 相关 的 分 值 ， 即 完整 Vite 


应 分 值 的 直方 图 。 特 别 值 得 注意 的 是 


00 和 50， 以 及 三 个 不 同 的 噪声 水 平 : p=0%，5%% 和 10%。 
它们 都 只 
位 置 抽取 的 片断 。 
和 随机 抽取 的 。 
分 组 合 与 GPCR 相 同 。 第 四 个 数 
150 的 片断 。 第 五 个 数据 集 用 


4 包含 长 度 为 150 的 片断 。 第 一 个 数据 集 是 


第 二 个 数据 集 的 200 个 片 
1325) 第 三 个 数据 集 包含 随机 生成 
据 集 包含 从 
个 数据 





与 第 四 








h 


于 生成 局 部 比 对 和 全 局 比 对 。 这 里 
rbi 路 径 的 概率 的 负 对 数 。 
这 些 结果 显示 ， 在 原始 分 值 的 闵 值 为 625 





取 。 











分 析 与 
绘 出 了 相 





图 8-7 











时 ， 搜 索 结 果 很 好 地 消除 了 假 阳 性 ， 
相同 的 结果 ， 
重生 部 分 变 得 更 加 显著 。 这 要 求 











同时 





只 有 少量 的 假 阴性 出 现 。 





图 





8-8 显 示 了 





只 是 长 度 为 二 50、 噪 声 水 平 为 p=10%。 目 如 我 们 所 看 到 的 ， 分 布 的 
我 们 对 片断 长 度 以 及 分 布 于 整个 SWISS-PROT 数 





据 库 的 噪声 对 精度 亚 化 的 影响 进行 更 加 精确 的 分 析 。 


实验 结果 的 总 结 
图 
。 图 中 
值 的 取 











分 值 
及 分 


同时 
值 范 


描绘 出 了 
CAR 





























和 非 目标 序列 的 分 值 的 取 值 范 
图 中 代表 分 值 范 
对 于 某 一 给 定 的 片断 
% 的 目标 片断 、 
% 的 非 目 标 片 断 
以 针对 目标 和 
© 目标 片断 
REKED: 
了 噪声 水 平 5%: 
噪声 水 平 10% : 





























u o 











z] 





。 为 了 能 够 表达 所 有 噪声 水 平 上 的 所 有 取 值 范围 ， 
围 的 长 度 坐标 位 置 与 片断 的 实际 
长 度 〔 例 如 50 )， 六 条 线 从 左 向 右 分 别 代表 ， 噪声 水 
噪声 水 平 0% 的 非 目 标 片断 、 
、 噪 声 水 平 10% 的 目标 片断 、 噪 声 水 平 10% 的 非 目 标 片断 。 我 们 
E 目 标 片 断 计 算 各 个 噪声 水 平 上 的 回归 线 : 


8-9 总 结 了 全 部 实验 结果 。 横 轴 用 于 显示 片断 长 度 ， 纵 轴 用 于 显示 片断 的 
目标 序列 《( GPCR) 和 非 目标 序列 的 标准 差 ( 竖 条 ) 
)， 其 中 包括 所 有 片断 
EKP (0%, 5%, 10% )。 对 于 每 个 片断 


以 
长 度 (50, 100, 150) 和 所 有 了 噪 
细 线 表示 所 有 噪声 水 平 上 的 目标 





KBE, 

















长 度 坐 标 略 有 偏 移 。 








噪声 水 平 5% 的 目标 片断 、 噪 声 水 平 





y=387.4+1.1991 
?=384.0+1.3147 
y=382.3+1.4011 
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图 8-7 长 度 为 150 的 不 同 片断 的 分 值 直方 图 


第 一 个 直方 图 基于 从 GPCR 训 练 集中 抽取 的 142 个 随机 片断 。 所 有 其 他 直方 图 都 基于 以 随 所 方式 抽取 的 
200 个 片断 ， 它 们 分 别 来 源 于 : 一 个 更 大 的 GPCR 数 据 库 、 用 相似 的 平均 成 分 组 合 随机 生成 的 片断 、 一 个 激 
酶 数据 库 以 及 SWISS-PROT 数 据 库 。 





。 非 日 标 片 断 
噪声 水 平 0%: y=364.7+1.9091 
噪声 水 平 5% : =364.8+1.9101 








第 8 章 RIRA (HMM): 应 用 177 


0 10 20 3040 051020 30 
| © 





010 30 50 0 20 40 60 80 
; 
| | 


630 640 650 660 ~ 670 680 





0 20 40 60 
| 

a) 

3 


SWISS 


图 8-8 长 度 为 50， 品 声 水 平 p=10% 的 片断 的 分 值 直方 图 


噪声 水 平 10%: y=364.8+1.9111 
这 些 回 归 线 仅 仅 由 三 个 长 度 上 的 片断 分 值 确定 ， 因 此 只 能 作为 其 他 长 度 片断 
分 值 的 某 种 近似 。 这 些 回归 线 在 片断 长 度 约 为 35 处 相交 ， 这 意味 着 仅仅 基于 分 值 
的 有 效 鉴别 的 长 度 下 限 约 为 35。 
正如 我 们 所 预期 的 ， 目 标 序列 回归 线 的 斜率 随 噪声 水 平 的 提高 而 增 大 ， 交 点 
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片断 长 度 
图 8-9 全 部 SWISS-PROT 数 据 库 片断 分 值 的 总 体 分 布 


模 轴 用 于 显示 片断 的 长 度 ， 纵 轴 用 于 显示 片断 的 分 值 。 图 中 同时 描绘 肯 标 序列 (GPCR) 和 非 目标 序 
列 的 标准 差 ( 竖 条 ) 和 分 值 的 取 值 范围 〔 细 线 )， 其 中 包括 所 有 片断 长 度 (50，100，150 ) 和 所 有 噪声 水 
F (0%, 5%, 10% )o 


变化 不 显著 。 非 目标 序列 的 斜率 和 交点 都 很 稳定 ， 品 声 水 平 对 非 目 标 序 列 的 影响 
不 大 。 全 部 非 目标 序列 的 近似 回归 线 为 ? 盖 364.8+1.91!。 与 参考 文献 [38 ] 中 的 
结果 一 致 ， 这 一 斜率 覆 低 于 从 更 长 的 序列 导出 的 回归 线 斜 率 。 我 们 可 以 用 类 似 的 
方法 研究 分 值 的 标准 差 作为 长 度 和 咯 声 水 平 的 函数 。 


ROC 曲 线 

在 计算 出 数据 库 中 所 有 相关 片断 的 分 值 之 后 ， 我 们 可 以 进一步 统计 在 每 个 长 
度 和 每 个 噪声 水 平 上 ， 在 任意 给 定 分 值 阐 值 的 条 件 下 ， 真 、 假 阴性 和 真 、 假 阳性 
的 数量 。 这 些 敏 感性 /选择 性 结果 可 以 绘制 成 相应 的 ROC 曲 线 ， 如 图 8-10 所 示 。 

ROCHA DETER AE ATH, RRMA, BAR. BA 
性 的 个 数 ， 计 算 敏感 性 或 命中 率 ( 真 了 性 的 比例 ) 以 及 选择 性 或 误 报 率 ( 假 阳 性 
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SWISS-PROT 数 据 库 中 所 有 长 度 为 30、100 或 150 的 序列 ， 在 噪声 水 平 为 0%、5 免 和 10% 的 所 有 分 值 的 
ROC 图 。 这 些 序列 中 不 包括 含有 歧义 符号 的 序列 。 








的 比例 )。 阅 值 范围 是 片断 长 度 的 两 数 。 对 于 每 个 片断 长 度 ， 最 小 阔 值 (范围 ) 
应 该 保证 在 所 有 蝶 声 水 平 上 没有 非 GPCR 片 断 在 分 类 中 旦 阳 件 ; 最 大 阔 值 范围 则 
应 该 保证 在 所 有 噪声 水 平 上 没有 已 知 的 GPCR (来源 于 PROSITE 数 据 库 ) 在 分 类 
中 呈 关 性。 这 些 曲 线 为 我 们 根据 不 同 目标 选择 阅 值 提供 了 一 个 方便 的 手段 。 如 图 
8-10 所 示 ，ROC 曲 线 作为 曲 声 水 平和 片断 长 度 的 尔 数 时 ， 曲 线 族 呈现 油 显 著 的 渐 
近 排列 特征 。 图 中 曲线 倾向 于 贴近 纵 轴 ， 这 意味 着 即使 在 命中 率 较 高 时 ， 仍 然 可 
以 得 到 很 低 的 误 报 率 ， 即 对 大 多 数目 标 序列 有 很 好 的 识别 效果 。 然 而 ， 图 中 曲线 
并 不 倾向 于 贴近 横 轴 ， 这 意味 着 为 了 达到 更 高 的 目标 序列 识别 比率 ， 假 阳性 的 数 
量 就 会 显著 增加 。 这 当然 因为 GPCR 是 由 相对 保守 的 区 域 和 高 度 可 变 的 区 域 共同 
构成 的 。 我 们 儿 乎 不 可 能 在 一 般 性 的 SWISS-PROT 数 据 库 背 景 上 ， 有 效 识别 出 一 
个 取 自 高 度 可 变 区 域 的 相对 较 短 的 片断 。 同 样 ， 包 含 更 加 保守 区 域 的 相对 较 长 的 
片断 则 比较 容易 从 背景 中 分 离 测 来 。 当 片断 长 度 较 短 以 及 噪声 水 平 较 高 时 ， 这 些 
曲线 提示 我 们 可 以 通过 构建 附加 的 过 滤器 提高 性 能 。 
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d 测度 与 识别 结果 分 析 

给 定 两 个 被 鉴别 群体 的 分 值 ， 并 假设 这 两 个 分 值 的 分 布 都 为 标准 差 为 1 的 高 
斯 分 布 ， 对 于 特定 的 假 阴性 和 假 阴性 水 平 ，d 测度 给 出 两 个 高 斯 分 布 中 心 之 间 的 
距离 。 

利用 a' 测度 对 SWISS-PROT 数 据 库 识 别 结 果 的 初步 分 析 显 示 ， 对 于 不 同 的 立 
i, d 测度 的 变化 幅度 很 大 。 这 表明 分 值 的 分 布 曲线 并 不 是 高 斯 分 布 ( 正如 我 们 
从 直方 图 中 看 到 的 )。 由 于 对 不 同 的 噪声 水 平和 片断 长 度 给 出 一 种 统一 的 性 能 评 
价 方法 很 有 意义 ,我们 仍然 使 用 a' 测度 分 析 识 别 。 对 不 同 曲 声 水 平和 片断 长 度 ， 
我 们 对 命中 率 为 0.9 时 的 误 报 率 进行 线性 插值 ， 并 对 获得 的 数据 对 ( 0.9，x ) 计算 
d' 测度 ， 其 中 x 为 线性 插值 结果 。 表 8-2 给 出 针对 不 同 噪声 水 平和 片断 长 度 的 4d’ 测 
度 结果 。 















































表 8-2 根据 全 部 实验 结果 ， 对 不 同 片断 长 度 和 噪声 水 平 上 的 分 类 性 能 的 初步 评价 


0% 3% 10% | 
50 1.16 1.18 1.03 
100 1.63 149 1.50 
150 241 2.14 1.96 


—i 





























提高 识别 率 

到 目前 为 止 我 们 只 考察 了 HMM 产 生 的 原始 分 值 ， 即 Viterbi 路 径 概率 的 负 对 
数 。 然 而 埋 论 上 ，HMM 包 含 更 多 的 信息 ， 可 以 用 于 提高 数据 库 挖掘 性 能 。 事 实 
土 ， 对 于 每 个 片断 ， 可 以 建立 更 多 的 标识 。 将 它们 组 合 使 用 以 提高 性 能 ， 例 如 在 
一 个 贝 叶 斯 网 络 中 就 可 以 考虑 使 用 这 种 方法 。 最 值得 注意 的 是 可 以 利用 路 径 本 身 
的 结构 。 正 如 我 们 预期 的 ， 真 阳性 和 假 阳性 的 路 径 有 显著 区 别 。 假 阳性 的 路 径 一 
般 更 不 连接 并 包含 许多 间隙 。 于 是 ， 我 们 可 以 建立 一 些 路 径 非 连续 性 的 指标 ， 这 
些 指标 包括 : (1) 路 径 上 始 于 删除 状态 的 转移 的 次 数 ; (2) 路 径 上 生成 状态 的 最 
长 连续 片断 的 长 度 ，( 3 ) 路 径 本 身 的 概率 的 对 数 ( 只 包括 转移 ， 不 包括 生成 )。 
在 一 项 测试 中 ， 将 这 类 指标 与 原始 分 值 结合 可 以 将 识别 的 命中 率 提高 15% ~ 20%。 
参考 文献 [ 42 ] 中 探讨 了 提高 识别 率 的 其 他 研究 思路 。 


8.1.9 HMM 用 于 信号 肽 和 信号 锚 的 预测 


在 6.4.1 节 中 ， 我 们 介绍 了 在 原核 生物 和 真 核 后 物 序列 的 N 端 发 现 信号 肤 的 问 
题 。 基 于 窗口 的 神经 网 络 方法 [44] 可 以 利用 氨基 酸 之 间 的 相互 关系 ， 尤 其 是 在 前 
切 位 点 附近 。 然 而 在 没有 附加 输入 单元 的 情况 下 ， 这 种 神经 网 络 方法 不 能 从 序列 
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的 整体 模式 以 及 信号 肽 特有 的 不 同 长 度 分 布 中 获 益 。 

事实 上 ， 我 们 已 知 信号 肽 的 长 度 特征 在 不 同类 型 的 组 织 中 有 所 不 同 : 细菌 的 
信和 叶 肽 长 于 相应 的 真 核 生物 的 信号 肽 ， 而 革 兰 氏 阳 性 菌 的 信号 肽 要 长 于 革 兰 氏 阴 
性 世 的 信号 肽 。 另 外 ， 随 着 在 信号 肽 中 位 置 的 变化 ， 对 应 的 成 分 组 成 也 有 所 不 同 ， 
类 似 的 情况 也 存在 于 成 熟 蛋 白 的 前 几 个 残 基 中 。 

另外 一 个 重要 的 难题 是 某 些 蛋白 质 的 N 端 带 有 与 信号 肽 相同 的 初始 移 位 序列 ， 
然而 这 些 序列 并 没有 被 肽 酶 〔( peptidase ) 剪 切 。[54406] 没有 被 剪 切 的 信号 肽 被 称 
为 信号 锚 ， 它 是 一 类 特别 的 膜 蛋白 。 信 和 号 错 通常 比 筋 切 过 的 信号 肽 包含 更 长 的 踊 
水 区 ， 其 他 区 域 的 成 分 组 合 特征 也 与 信号 肽 不 同 。 

尼尔森 和 克 罗 建 立 了 一 个 HMM 模 型 ， 它 不 仅 能 够 鉴别 信号 肽 和 非 信号 肽 ， 
而 且 能 够 确定 剪 切 位 点 。'*6] 该 模型 在 设计 中 考虑 了 已 知 的 信号 肽 特性 ， 尤 其 是 
6.4.1 节 中 介绍 的 不 同 的 区 域 。 为 了 获得 能 够 分 辨 信号 肽 和 信和 号 错 的 预测 工具 ， 他 
们 的 模型 构架 将 一 个 信号 肽 模型 和 一 个 信号 错 模 型 结合 在 一 起 。 

信号 肽 模型 见 图 8-11。 利 用 “捆绑 ”状态 (tied state) 对 不 同 区 域 中 的 长 度 
分 布 进行 显 式 建 模 , “捆绑 ”状态 的 生成 和 转移 概率 有 相同 的 氨基 酸 分 布 。 






































Met 状 态 





1 md4m3m2ml cl c2 c3 c4 c5 c6 


剪 切 位 点 c- 区 域 
图 8-11 用 于 信号 肽 监 别 的 HMM 
模型 "sw ] 的 设计 实现 了 对 不 同 区 域 的 长 度 分 布 的 显 式 建 模 。 阴 影 区 域 的 状态 相互 “捆绑 ”在 一 起 。 


为 了 鉴别 信号 肽 、 信 和 号 销 和 水 溶性 的 非 分 说 蛋白 ， 模 型 中 增加 了 一 个 图 8-12 
所 示 的 信号 锚 模 型 。 整 个 模型 通过 各 类 序列 训练 获得 ( 包括 已 知 的 信号 肽 、 已 知 
的 信号 销 以 及 其 他 细胞 质 和 细胞 核 序列 )。 序 列 在 组 合 模型 中 的 最 佳 路 径 能 够 预 
测 该 蛋白 质 属于 这 三 类 蛋白 质 中 哪 一 类 。 
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8.2 


组 合 模型 






起 始 一 一 
AA 








Met 状 态 n- 区 域 h- 区 域 
图 8-12 设计 用 于 鉴别 信号 肘 各 信号 绕 的 HMM 


上 方 的 方 框图 显示 组 合 模型 '%! 如 何 将 信号 肽 模型 和 信号 错 模 型 结合 在 一 起 。 阴 影 部 分 的 状态 彼此 捆 
缉 在 一 起 ， 用 于 所 有 不 在 信号 肽 或 信号 锚 中 的 残 基建 模 。 下 方 为 信号 锚 的 模型 ， 它 只 包含 两 类 状态 (用 两 
个 阴影 框 分 开 )， 并 与 Met 状 态 分 离 。 


就 鉴别 信号 肽 和 非 信 号 肽 的 预测 性 能 而 言 ， 结 合 C 值 和 S 值 的 神经 网 络 ( 见 
6.4.1 节 ) 可 以 达到 与 HMM 相 当 的 鉴别 精度 。 神 经 网 络 对 于 真 核 生物 序列 的 效果 
稍 好 ， 而 HMM 对 于 革 兰 氏 阴 性 菌 的 效果 稍 好 。! 426] 对 于 鉴别 剪 切 后 的 信号 肽 和 
没有 剪 切 的 信号 锚 ， 上 述 HMM 的 相关 系数 达到 0.74， 对 应 的 敏感 性 为 71% ， 特 异 
性 (选择 性 ) 为 81%; 而 由 神经 网 络 的 S 值 获得 的 相应 性 能 评价 中 ， 相 关系 数 不 
超过 0.4。 因 此 在 识别 信号 锚 ， 进 而 在 识别 同类 的 膜 结合 蛋白 ( membrane- 
associated protein ) 的 应 用 中 ，HMM 有 显著 的 优势 。 

然而 ， 我 们 并 不 能 就 此 断言 神经 网 络 不 适用 于 信和 号 错 识别 问题 ， 因 为 与 上 述 
HMM 不 同 ， 神 经 网 络 的 训练 集中 并 未 包含 信号 锚 序列 。[4061 

在 TMHMM 方 法 中 ， 类 似 的 构建 特定 结构 HMM 的 方法 被 用 于 建构 和 预测 跨 
膜 蛋白 质 的 拓扑 结构 。!331TMHMM 方 法 能 够 准确 地 鉴别 水 溶性 的 蛋白 质 和 膜 蛋 
白 ， 其 特异 性 和 敏感 性 可 同时 达到 99 旬 以 上 ,但 当 有 信号 肽 出 现时 精度 会 下 降 。 
由 于 TMHMM 方 法 的 精度 非常 高 ， 它 非常 适用 于 扫描 整个 基因 组 以 发 现 整合 性 膜 


蛋白 (integral membrane protein ), 1%! 















































在 DNA 和 RNA 方 面 的 应 用 


核 昔 酸 序列 的 多 重 序列 比 对 比 蛋白 质 序列 的 多 重 序列 比 对 更 困难 。 其 中 一 个 
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是 氨基 酸 蔡 换 矩 阵 中 的 参数 可 以 通过 进化 和 生化 分 析 进 行 估计 ， 然 而 估计 一 











般 性 突变 以 及 从 核酸 中 出 除 单个 核 背 酸 的 代价 则 要 困难 得 多 。 对 于 字符 集 较 小 的 


序列 ， 比 对 的 显著 性 将 更 快 地 达到 不 确定 的 “边缘 地 带 ”( twilight zone ), 

















UH 





在 进行 DNA 比 对 时 ， 进 人 边缘 地 带 所 需要 的 进化 事件 ( 核 苷 酸 的 插 人 或 删除 ) 更 


少 。 








HMM 不 要 求 对 替换 代价 〈 substitution cost) 给 出 先 验 的 显 式 定义 。 通 过 将 多 
对 多 方式 转化 为 多 对 一 的 方式 ，HMM 有 效 避 兔 了 传统 多 重 序列 比 对 方法 在 计算 
LAZE. OS 模型 中 不 同 的 位 置 在 实际 中 分 别 对 应 于 隐 售 的 替换 代价 。 在 有 关 

















核酸 的 一 些 应 用 中 ，HMM 的 这 些 特性 已 成 功 地 指导 我 们 发 现 了 一 些 其 他 方法 尚 


未 揭示 的 新 模式 。 而 在 与 如 


进 。 
8.2.1 








白质 相关 的 应 用 中 ，HMM 带 来 对 早期 方法 的 更 多 改 


原核 生物 和 真 核 生物 的 基因 发 现 








基 


发 现 要 求 许多 不 同 信号 的 集成 : 启动 子 区 域 、 翻 译 起 始 和 终止 的 上 下 文 














EFN. REER, RREA (polyadenylation) 信号 ; 对 于 真 核 生物 还 包 





列 拓 扑 

















些 信和 号 ; 
付 这 类 复杂 人 性 的 一 种 很 自然 的 办 法 。 


括 ， 内 含 子 剪接 信号 、 外 显 子 和 内 会 子 的 成 分 对 照 、 核 小 体 定位 的 潜在 差异 及 序 


区 域 的 决定 子 〔 sequence determinant )。 其 中 最 后 一 类 信号 涉及 间 质 连接 


区 ( matrix/scaffold attachment region， 简 称 MAR 或 SAR )， 它 与 染色 体 的 高 级 组 
织 结构 有 关 。 连 接 信号 可 能 涉及 有 机 体内 部 的 启动 转录 行为 ， 近 来 已 有 它们 在 基 
之 间 出 现 的 相关 报道 。 对 于 原核 生物 ，DNA 序 列 还 要 能 被 压缩 成 很 紧凑 的 类 染 
色 质 (chromatin-like ) 结构 。 从 一 个 单一 操纵 子 〈《operon ) 扩展 的 DNA 的 长 度 对 
应 于 细胞 的 直径 。 由 于 所 有 这 些 信 号 在 很 大 范围 内 彼此 互补 ， 在 一 定 程度 上 ， 某 




















较 弱 时 ， 另 一 些 信号 可 能 较 强 ， 














此 用 概率 的 方式 将 它们 集成 起 来 ， 是 对 


在 原核 生物 中 ,编码 区 不 会 被 间 插 序 列 ( intervening sequence ) 打 断 这 一 事 











实 使 基 











GeneMark [#18982 


— TE Stem eal 

















发 现 变 得 更 简单 。 然 而 ， 区 分 代表 真正 基因 的 序列 和 不 代表 任何 基因 的 
序列 并 不 容易 ， 尤 其 是 当 开放 的 阅读 框 相 
1 中 《 它 的 第 1 版 基于 片断 相关 的 非 均 一 结构 的 马尔 可 夫 模 型 )， 
的 关键 特性 是 它 能 够 聪明 地 识别 一 个 真正 的 编码 区 在 非 编码 链 
(non-coding strand) 上 留 下 的 “影子 ”( 更 多 的 细节 参见 第 9 章 )。 
































对 较 短 时 。 在 非常 成 功 的 基因 发 现 程序 








人 们 已 经 开发 出 一 种 能 够 在 大 肠 杆 菌 DNA 中 发 现 蛋 白质 编码 基因 的 HMM 


(在 这 个 模型 开发 出 来 时 ， 大 肠 杆菌 全 基 
括 对 大 肠 杆 菌 基 因 的 编码 子 及 














组 测序 尚未 完成 )。 I 该 HMM 中 包 























其 序列 建 模 的 状态 ， 以 及 对 在 基因 间 区 域 中 发 现 的 
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模式 建 模 的 状态 。 
sequence) 和 夏 因 一 达尔 加 诺 motif ( 一 自 具 有 特定 功能 的 和 4 
始 DNA 序 列 中 潜在 的 测序 错误 以 及 移 码 突变 ( frame shift), 
出 现 单个 核 苷 酸 的 插 人 和 有 删除 { 尽管 可 能 性 很 小 )。 该 HMM 的 参数 估计 使 用 
f 在 包含 约 325 000 个 核 苷 酸 的 不 连接 的 片断 集合 








EDNA RKA 100A TAT 
上 进行 测试 。 这 个 HMM 发 现 了 大 约 80% 的 已 知 大 肠 杆菌 基因 
10% 的 大 概 位 置 。 它 还 发 现 了 一 些 潜 在 的 新 基因 ， 并 
的 插入 /删除 错误 或 移 码 突变 。 

在 真 核 生物 的 基因 发 现 方面 ， 人 们 已 开 
型 ( 参见 第 9 章 和 参考 文献 [343,107 ] 以 其 
基因 模型 通常 由 多 个 子 








al 











这 些 模式 包括 重复 的 基因 外 











酸 ， 




















使 型 纽 合 而 成 ， 如 剪接 位 点 子 模型 、 





显 子 子 模型 等 ， 


以 便利 用 其 信和 号 





在 有 限 的 时 间 内 扫描 整个 基 

















文 序列 ( extragenic palindromic 


E 物 序列 )。 考 虑 到 原 
HMM 人 允许 在 编码 区 
了 标 

















的 精确 位 置 ， 以 及 约 


f 且 定位 了 一 些 出 现在 片断 中 





发 出 许多 强大 的 HMM 和 其 他 概率 模 
的 相关 参考 文献 )。 典 型 的 真 核 生 物 


内 含 子 子 模型 以 及 外 


致 性 较 弱 和 成 分 不 同等 特点 。 如 果 模 型 目标 是 
组 ， 单 个 子 模 型 的 规模 就 必须 保持 相 下 





较 小 。 其 他 


关键 要 素 包 括 ， 考虑 到 内 含 子 打 断 阅读 框 有 三 种 可 能 方式 ， 需 要 并 行 地 应 用 三 个 











HBT FRA, MANA 








基 





间 序 列 和 链 的 对 称 性 


日 外 显 子 和 内 含 子 的 长 度 分 布 、 启 动 














等 特性 。 通 常 将 整个 识别 系统 一 次 训练 完成 


子 、 聚 腺 苷 酸化 信号 、 


此 分 别 训 练 





各 个 子 模型 效果 更 好 。 特 别 地 ， 为 了 使 系统 产生 整体 最 优 的 基因 分 析 而 不 仅 是 最 


优 








基因 识别 水 平 
进一步 提高 识别 





以 达到 75% ~ BO%MHIH 
率 还 需要 更 多 的 工作 。 


的 序列 概率 ， 我 们 可 以 对 标准 HMM 算 法 进行 改进 。[ 22] 这 些 模 再 [9 1 的 最 佳 
显 子 完全 识别 率 (包括 准确 的 剪接 位 点 )。 
新 的 改进 可 能 来 源 于 引信 新 的 和 更 好 的 子 


模型 ( 如 启动 子 或 起 始 和 终止 外 显 子 的 子 模型 )， 以 及 DNA 中 的 其 他 物理 特性 和 











fas CM 





PER REL). 








很 


能 在 生物 的 基 

















用 不 同 的 子 模型 构造 一 些 较 大 的 基 











8.2.2 人 类 基因 剪接 位 点 、 外 显 子 和 内 含 子 的 HMM 


在 mRNA 离开 核酸 被 翻译 为 蛋白 质 之 前 ， 真 核 生 物 基 
(ASF) 从 mRNA 分 子 中 被 前 去 的 机 制 称 为 剪接 。 至 今 已 有 大 量 的 研究 投向 理 
解 内 含 子 剪 接 的 分 子 机 制 。 由 于 人 们 尚 很 不 清楚 特定 剪接 所 必需 的 和 足够 的 序列 
决定 子 ， 所 以 HMM 形 式 的 概率 模型 被 用 来 描述 实验 发 现 的 剪接 信号 





与 蛋白 质 家 族 的 情况 不 同 ,，DNA 有 一 个 非常 











这 些 至 今 仍 被 人 们 完全 忽视 的 精确 信号 ， 
发 现 机 制 中 扮演 重要 的 角色 。 在 本 章 后 半 





部 分 中 ， 我 们 将 利 


模型 ， 并 描述 这 些 可 能 的 信和 号。 











因 中 包含 的 间 插 序列 











要 的 特点 值得 注意 ， 即 所 有 的 


外 显 子 及 其 相关 的 剪接 入 接点 〈splice site junction) 在 进化 上 的 相关 性 既 不 直接 
也 不 紧密 。 然 而 ， 就 一 般 性 的 共同 特征 而 言 ， 它 们 仍然 构成 一 个 “家 族 "。 例 如 ， 








EAA MT RS 
守 序 列 会 作为 模型 中 


motif 


EF (flanked exon) 序列 的 多 
h 的 高 度 保守 区 而 突现 出 来 ， 就 
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( 超 二 级 结构 模 体 )。 











态 视 为 一 般 的 字符 串 操作 ， 而 


E， 我 们 应 该 特别 亲 慎 地 将 HMM 


是 进化 事件 。 
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EFIR H, BREA AER 
像 蛋白 质 家 族 中 的 一 个 蛋白 质 








的 插 人 和 删除 状 


为 了 测试 HMM 能 否 很 容易 地 发 现 人 类 DNA 中 接纳 体位 点 和 供 体位 点 的 已 知 


特性 ， 


如 图 7-2 的 标准 构架 模型 。 
练 得 到 的 参数 ， 我 


[TC] 


他 一 些 已 知 的 弱 信号 ， 
现 概率 很 高 的 A 

类 似 地 ， 从 旁 侧 扩 展 的 供 体位 点 序列 训练 获得 的 模型 
体位 点 ， 只 是 上 


(ICA: 





我 们 用 1 000 个 随机 选择 


[32,33, 
门 可 以 看 到 
G] [G]). 

如 分 支 








IN] [CT] [A] 


o 


接纳 体位 点 难 
[A] [G] [G} {T] [AG] [A} 











CH 
最 可 








由 于 训练 序列 中 的 外 显 子 总 是 固 
假设 ， 我 们 用 同样 的 序列 训练 了 一 个 类 似 的 模型 ， 只 是 采用 


Fo 


8-13) 的 G-rich 区 , 该 模型 


[能 的 解释 是 接纳 体位 点 的 延 





的 旁 侧 扩展 的 供 体 和 





h ， 碱 基文 本 清晰 可 见 ， 
套 索 式 (lariat) ] 


学 习 。 模 型 同 
[G] )。 对 于 从 
同样 有 效 。 对 于 


样 精确 地 获得 
供 体位 点 向 T 
接纳 体位 点 





更 


屡 纳 体位 点 序列 ， 训 练 了 一 个 
35 通过 仔细 检查 HMM 在 旁 侧 扩展 的 接纳 体位 点 训 
模型 精确 地 获得 了 接纳 体 的 保守 序列 : (TC 
图 8-13 中 


同时 还 可 以 看 到 其 


信号 在 内 含 子 的 3" 端 有 一 个 出 


可 以 清晰 地 看 到 供 
了 供 体 的 保守 序列 : 





下 游 扩 展 了 约 75 个 碱 基 


容易 学 习 这 一 现象 ， 


展 特性 更 好 ， 而 供 体位 点 则 较 差 。 然 而 ， 也 可 能 

















定向 上 游 旁 侧 扩展 100 个 核 首 








出 乎 我 介 


征 难以 突显 出 来 。® 


# 


意料 的 是 ， 新 模型 对 于 接纳 体位 点 的 学 习 效果 仍然 显著 优 于 供 体 
位 点 《在 新 模型 中 ， 供 体位 点 处 于 接纳 体位 点 的 下 游 )。 在 碱 雪 文本 
度 为 175 个 碱 基 ) 处 子 接纳 体位 点 下 游 的 部 分 ( 外 显 子 左 端 ) F, AER 
较 高 的 随机 程度 ， 这 种 随机 性 可 能 促成 了 以 上 学 习 结果 。 和 
端的 G-rich 区 具有 某 种 全 局 性 的 结构 ， 能 够 被 HMM 识 别 ， 使 得 供 体 保守 序列 





加 本 节 关 于 剪接 模型 的 论述 比较 抽象 ， 特 补充 以 下 剪接 示 音 图 : 


反 的 ， 处 了 


F 酸 。 为 了 检验 这 一 
反 的 顺序 〈 从 右 向 














区 ( 





HER 
上 LE 列 有 
内 会 子 3 
的 特 














Sit 


供 体位 点 


接纳 体位 点 
TACTAAC 


3 端 





外 显 子 





上 游 


TC 
外 显 子 | 


下 游 
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图 8-13 HMM 主 状态 上 的 生成 分 布 


模型 的 训练 集 分 别 为 ，1 000 个 接纳 体位 点 〈 顶 图 ) 和 1 000 个 供 体位 点 ( 底 图 )。 每 个 位 点 的 旁 侧 序 列 
保持 定 长 为 100 个 核 并 酸 ， 而 模型 长 度 为 175。 对 于 接纳 体位 点 ， 很 容易 误 别 出 特征 保守 序列 (ITC TC] 
IN] [CT [A] [G] [G] )。 注 意 在 接纳 体位 点 的 下 游 与 分 支点 相应 的 位 置 上 ， 碱 基 A 的 频率 很 高 。 供 体位 点 的 
特征 保守 序列 也 很 容易 识别 [CA] [AI {G] [G] [T] [AG] IA] [G] )。 训 练 过 程 用 标准 构架 初始 化 ( 见 图 7-2 )， 
并 在 目标 未 数 中 添加 偏向 于 主干 转移 路 径 的 正则 项 。 
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8.2.3 利用 HMM 新 构架 在 外 显 子 和 内 含 子 中 发 现 周期 模式 
在 另 一 组 实验 中 ， 我 们 用 包括 内 含 子 序列 的 旁 侧 扩展 的 人 类 外 显 子 序列 训练 





一 个 标准 构架 的 HMM。 


训练 集 为 随机 选择 的 旁 侧 扩展 的 内 部 外 显 子 ， 外 显 子 的 


长 度 限 制 为 100~200 个 核 昔 酸 ( 人 类 内 部 外 显 子平 均 长 度 约 为 150 个 校 苷 酸 )。 


治 着 模型 伸展 方向 


以 看 到 引 人 注 目的 周期 模式 ， 特 别 是 在 外 显 子 区 域 ， 其 特征 是 最 小 周期 为 10 个 核 
苷 酸 ，A 和 G 的 相位 相同 、C 和 T 的 相位 相反 。 模 型 的 参数 在 以 下 位 置 有 形式 为 


[AT] [CG] (或 [AT]G )、 
55, 72, 81, 90, 99, 


主 状态 ，4 种 核 苷 酸 各 自 的 生成 概率 见 图 8-14。 从 图 中 可 








周期 约 为 10 个 碱 基 对 的 周期 模式 : 10，19，28，37，46， 
105, 114, 123, 132, 141, SHEP LAE RIB 

















进行 2 个 核 苷 酸 的 联合 上 





较 。A+G 和 C+T 的 曲线 与 A+T 和 C+G 的 曲线 相 比 ， 无 论 





A 


3 20 40 60 & 


0 100 120 140 160 180 200 220 240 260 280 300 320 340 





C 


20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 


j 


oo oa 


20 40 6 80 


| 


po os as 


20 40 60 80 


G 


100 120 140 160 180 200 220 240 260 280 300 320 340 


T 


100 120 140 160 180 200 220 240 260 280 300 320 340 


图 8-14 受训 的 HMM 主 状态 上 的 生成 分 布 


训练 集 为 500 个 旁 侧 扩展 的 


内 部 外 显 子 。 外 显 子 的 长 度 女 制 在 100 到 200 个 核 华 酸 之 间 。 平均 为 142 个 ， 


两 个 旁 侧 的 内 显 子 序列 长 度 都 国定 为 100 个 。 模 型 包含 342 个 主 状态 。 注 意外 显 子 区 域 和 旁 侧 区 坡 在 振幅 模 


式 上 的 差异 。 
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在 内 合子 一 侧 还 是 在 外 显 子 一 侧 都 要 平滑 得 多 。 无 论 对 于 A+G 和 C+T 的 平滑 同 相 / 
反 相 模式 ， 还 是 对 于 A+G 在 前 、C+T 在 后 的 沿 相 反方 向 急剧 变化 的 模式 ， 都 可 以 
看 到 10 个 核 兰 酸 的 周期 性 。 还 有 一 种 大 约 包含 3 个 碱 基 对 的 周期 性 ， 在 C+G 曲 线 
中 尤其 明显 ， 其 中 每 3 个 生成 状态 对 应 1 个 局 部 最 小 。 这 与 人 类 基因 的 阅读 框 特性 
相 一 致 , 【31 它 在 第 三 个 密码 子 的 位 置 上 特别 强 ( C 的 出 现 概率 约 为 30%，G 的 出 
现 概率 约 为 26%， 见 图 6-11 )。 

为 了 进一步 描述 这 一 个 周期 特征 ， 我 们 针对 非 旁 侧 扩 展 的 内 部 外 显 子 训练 了 
一 系列 不 同 的 HMM 构 架 ， 以 便 从 出 现在 起 始 和 终止 外 显 子 上 的 核 普 酸 组 成 的 特 
殊 梯度 中 提取 周期 特性 。0%] 无 论 采 用 什么 构架 ， 当 训练 集 为 大 量 长 度 在 100 到 
200 个 核 昔 酸 的 内 部 外 显 子 时 ， 在 生成 概率 中 清晰 地 涌现 出 一 致 的 模式 。 这 些 不 
同 的 构架 包括 传统 的 从 左 到 右 模 型 ， 相 同 的 片断 被 捆绑 在 一 起 的 从 左 到 右 模型 在 
噪声 存在 时 仍 能 很 好 地 揭示 周期 模式 的 环 状 或 轮 状 模型 。 尽 管 传统 的 从 左 到 右 的 
构架 并 不 是 外 显 子 的 理想 模型 ， 但 由 于 外 显 子 长 度 变 化 很 大 ， 它 仍然 能 相当 好 地 
识别 出 周期 模式 。 

为 了 进一步 测试 周期 性 , 我 们 训练 了 一 个 带 有 周期 为 10 的 硬 连 接 (hardwired ) 
的 “捆绑 ”外 显 子 模型 。[”] 这 个 捆绑 模型 由 14 个 长 度 为 10 的 相同 片断 以 及 模型 
首尾 各 5 个 附加 位 置 构成 ， 模 型 总 长 度 为 150。 在 训练 过 程 中 ， 通 过 参数 的 “捆绑 ” 
使 片断 之 间 保 持 一 致 ， 即 在 训练 中 强迫 参数 在 片断 闻 保 持 一 致 ， 正 如 神经 网 络 中 
的 权重 共享 过 程 。 模 型 用 800 个 长 度 为 100~200 个 核 苷 酸 之 间 的 内 部 外 显 子 训练 ， 
并 用 262 个 不 同 的 序列 进行 测试 。 图 8-15 显 示 了 训练 得 到 的 重复 片断 的 参数 。 生 
成 概率 用 与 长 度 成 比例 的 水 平 短 线 表示 ， 这 个 片断 中 包含 许多 结构 。 其 中 最 主要 
的 特性 是 在 位 置 12~14 上 的 正则 表达 式 [“ T] [ATIG。 这 一 模式 经 常 出 现在 上 述 标 
准 模型 中 信息 炉 很 低 的 位 置 。 为 了 测试 显著 性 ， 我 们 将 捆绑 模型 与 长 度 相同 的 标 
准 模型 相 比较 。 通 过 比较 两 个 模型 在 外 显 子 序列 和 成 分 相似 的 随机 序列 上 的 负 对 





































































































图 8-15 捆绑 模型 的 重复 片断 


长 方形 表示 主 状态 ， 贺 形 表示 删除 状态 。 直 方 图 表示 主 状 态 和 插 和 人 状态 的 生成 分 布 。 连 接线 的 宽度 与 
转移 概率 分 布 成 比例 。 位 置 15 与 位 置 5 相 同 。 
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数 概率 的 平均 值 ， 可 以 清楚 地 看 到 捆绑 模型 能 够 达到 与 标准 模型 相当 的 性 能 ， 而 
自由 参数 却 少 得 多 。 因 此 ， 假 设 外 显 子 具 有 长 度 为 10 左 右 的 周期 性， 看 来 是 有 充 
分 依据 的 。 

由 于 从 左 到 右 的 构架 并 不 是 一 个 理想 的 外 显 子 异型 ， 我 们 希望 有 一 个 包含 环 
状 构架 的 模型 ， 这 样 ， 对 于 一 个 任何 给 定 的 外 显 子 ， 这 样 的 片断 可 以 根据 需要 被 
重复 多 次 。 参 考 文献 [336 ] 给 出 了 一 个 用 于 大 肠 杆菌 DNA 的 环 状 构架 。 图 8-16 
概要 显示 了 一 个 真正 的 环 状 模型 的 例子 。 在 具体 的 外 显 子 实验 中 , 环 的 长 度 为 10， 
两 个 旁人 出 扩展 的 长 度 为 4。 这 个 模型 在 训练 中 采用 梯度 下 降 算法 ， 并 对 主 二 上 的 
转移 进行 Dirichlet 正 则 化 使 其 更 有 利于 主 状态 。 由 于 锚 状 态 在 模型 连通 性 中 扮演 
着 特殊 的 角色 ， 需 要 对 它 进 行 附加 的 正则 化 。 用 于 错 状态 的 Dirichiet 向 量 为 
(0.168 9，0.165 6，0.165 6，0.168 9，0.165 6，0.165 6 )。 环 内 部 的 主 状态 和 插入 
状态 的 生成 概率 分 布 见 表 8-3。 我 们 再 次 获得 了 与 捆绑 模型 有 着 显 车 一致 性 的 结 





































































































果 。 从 主 状态 3(M3) 开 始 ， 模 式 [“ T] [AT]G 清 晰 可 见 。 
表 6-3 环 状 模 型 主 状 态 和 插入 状态 的 生成 分 布 见 图 8-16 ), 
训练 集 为 500 个 长 度 为 100~200 个 核 将 酸 的 外 显 子 
环 状态 A | c G T 
1 0.1957 0.480 8 0.198 6 0.1249 
Mi 0.3207 0.0615 0.0619 0.555 9 
2 0.006 2 0.038 1 0.5079 0.447 8 
M2 0.1246 0.298 2 0.5150 0.0622 
B 0.4412 0.1474 0.2377 0.1737 
M3 0.220 8 0.6519 0.1159 0.0114 
4 0.274 3 0.589 3 0.067 6 0.068 9 
M4 0.3709 0.0113 0.060 3 0.557 5 
I5 0.1389 0.294 6 9.037 8 0.5287 
MS 0.0219 0.0121 0.9179 0.048 1 
16 0.0153 0.9519 0.005 2 0.0277 
M6 0.090 5 0.1492 0.7017 0.058 6 
I7 pi 0.186 2 0.3703 0.303 7 0,139 9 
M7 0.3992 0.2835 0.3119 0.005 5 
Ig 0.2500. 0.438 1 0.296 8 0.0151 
M8 0.4665 0.004 3 0.1400 0.389 1 
19 0.6892 0.0156 0.2912 9.0040 
M9 0.0121 0.200 0 0.7759 0.0120 
110 0.202 8 0.370 1 0.0117 0.4155 
MI0 0.3503 0.345 9 0.2701 0.0787 
Tl 0.144 6 0.685 9 0.086 1 0,083 4 

















表 8-4 比 较 了 不 同 模型 训练 集 负 对 数 概率 的 累计 值 随时 间 变 化 的 情况 ， 实 验 
涉及 三 个 模型 : 一 个 自由 模型 、 一 个 捆绑 模型 和 一 个 环 状 模型 。 虽 然 正 如 我 们 所 
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预期 的 一 一 在 12 个 训练 局 期 后 ， 自 由 模型 达到 了 最 优 分 值 ， 然 而 这 似乎 是 由 某 种 
程度 上 的 过 拟 合 造成 的 。 环 状 模型 的 性 能 在 前 几 个 训练 局 期 中 优 于 自由 模型 。 捆 
绑 模 型 也 是 如 此 ， 只 是 较 环 状 模型 差 些 。 环 状 模型 在 所 有 训练 局 期 中 都 优 于 捆绑 
模型 。 自 由 模型 只 是 在 第 ?个 训练 周期 之 后 才 获 得 比 环 状 模型 更 好 的 分 值 。 这 也 
显示 出 ， 对 于 这 一 数据 集 ， 环 状 模型 是 一 个 更 好 的 模型 。 


表 8-4 ”12 次 选 代 中 概率 的 负 对 数 分 值 ( NLL ) 的 演化 情况 












































局 期 NLL 自 由 模型 NLL 捆绑 模型 NLL 环 状 模 型 
1 1.013e+05 1.001e+05 9.993e+04 
2 1.008e+05 9.902e+04 9.886e+04 
3 9.965e+04 9.884etH04 9.873e+04 
4 9.886e+04 9.875e+04 9.859e+04 
5 9.868e+04 9.869e+04 9,855e+04 
6 9.854e+04 9.865e+04 9.849e+04 
了 9.842e+04 9.862e+04 9.848e+04 
8 9.830e+04 9.86te+r04 9.852e+04 
9 9.821e+04 9.8600+04 9.845e+04 
10 9.810e+04 9.859e+04 9.842e+04 
11 9.803e+04 9.859e+04 9.B44e+04 
E 12 9.799e+04 9.859e+04 9.843e+04 











0.01， 使 用 梯度 下 降 算法 ， 分 别 为 自由 模型 ( 见 图 7-2 )、 气 绑 模型 ( 见 图 8-15 ) 和 环 状 模型 { 见 图 
8-16 )。 所 有 模型 的 训练 集 均 为 阅读 框 中 500 个 长 度 为 100-200 的 外 显 子 。 


最 后 ， 我 们 还 在 外 显 子 和 内 含 子 上 训练 了 一 种 不 同类 型 的 环 状 模型 。 这 个 
HMM 构 架 为 一 个 给 定 主 状态 数量 的 轮 状 结构 ， 没 有 线性 排列 的 旁 侧 状 态 ， 主 
状态 和 插入 状态 间 没 有 区 别 ， 也 没有 删除 状态 。 因 而 没有 与 潜在 的 哑 环 相关 的 
问题 。 序 列 可 以 从 任何 一 点 进入 轮 状 结构 。 进 入 点 当然 可 以 通过 动态 规划 来 决 
定 。 通 过 试验 状态 数量 不 同 的 轮 状 模型 和 比较 训练 集 负 对 数 概率 的 累计 数值 ， 
可 以 揭示 出 最 可 能 的 局 期 性 。 如 果 9 个 状态 的 轮 比 10 个 状态 的 轮 人 性 能 更 好 ， 我 
们 就 可 以 假设 与 局 期 性 相关 的 是 三 联 体 阅读 框 而 不 是 DNA 结 构 方面 的 特性 ( 见 
FX do 























8-17 显 示 了 轮 状 模型 的 构架 (这 里 的 长 度 为 10 个 核 昔 酸 )， 其 中 序列 可 以 
从 轮 上 的 任何 一 点 进入 。 来 自 外 部 的 箭头 的 线 宽 代表 从 相应 状态 开始 的 概率 。 训 
练 完成 后 ， 轮 状 模型 的 生成 参数 在 外 显 子 模型 (上 图 ) 的 状态 8、9 和 10 以 及 内 含 
子 模型 (下 图 ) 的 状态 7 、8 和 9， 清 晰 地 显示 出 [“ TI [AT]G 的 模式 。 通 过 训练 许 
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图 8-16 环 状 HMM 
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由 两 个 旁 侧 模 型 和 一 个 环 状 模 型 通过 一 个 旺 状 态 连 接 起 来 构成 ， 劳 侧 模 型 和 环 状 模型 都 类 似 于 标准 构架 。 


多 不 同 长 度 的 轮 状 模型 ， 我 们 发 现 长 度 为 10 的 模型 对 数据 适应 得 最 好 。 跳 路 概率 
(skip probability ) 在 这 些 模 型 中 都 不 高 的 事实 ， 隐 食 地 证 实 了 这 一 结论 。 也 就 是 





说 ， 如 果 数 据 以 9 为 周期 ， 那 么 长 度 为 10 的 轮 状 模型 为 了 能 够 与 数据 相 适 应 ， 


在 


轮 中 跳 过 一 个 状态 的 可 能 性 会 很 大 。 在 9 个 状态 的 轮 中 的 状态 重复 与 在 10 个 状态 
的 轮 中 的 状态 跳 获 是 不 等 价 的 。 这 些 轮 状 模型 都 不 包含 独立 的 插 人 状态 〈( 如 在 从 





左 向 右 的 线性 HMM 中 的 插入 状态 )。 对 同一 状态 的 重复 不 会 给 出 相同 的 自由 


度 ， 


这 点 对 可 能 性 而 言 就 好 像 允 许 独立 的 插 人 状态 一 样 。 进 而 ， 与 传统 的 多 重 序列 比 
对 中 的 问 际 惩 罚 〈 gap penalty ) 相 类 似 ，HMM 训 练 过 程 也 引 人 一 个 有 利于 主 状态 








(惩罚 跳跃 状态 ) 的 正则 项 。 
我 们 在 起 始 于 阅读 框 中 三 个 密码 子 位 置 之 一 的 多 个 不 同 外 显 子 的 子 集 上 本 








ER 





上 述 全 部 实验 ， 观 察 到 的 生成 概率 模式 未 见 显 著 变 化 。 为 了 便于 比较 ， 图 8-1 


8 显 


示 了 一 个 9 个 状态 的 轮 状 模型 的 生成 概率 ， 模 型 训练 集 为 多 联 外 显 子 (concatenated 
exons ) 的 完整 mRNA 序列 的 编码 部 分 。 这 一 模型 清楚 地 识别 出 三 联 体 阅读 框 〈 与 














图 6-11 相 比较 )。 这 一 模式 出 现在 内 含 子 序 列 的 事实 ， 进 一 步 否定 了 上 述 外 显 ] 
式 的 阅读 框 相关 性 起 源 。 
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模型 A 


模型 B 








图 8-17 用 于 识别 周期 模式 的 轮 状 HMM 


模型 A. 周期 为 10 个 状态 的 轮 状 模型 ， 由 训练 300 个 长 度 为 100~200 的 内 部 外 显 子 序列 获得 。 不 完全 比 
对 可 阅读 框 推理 导致 模式 的 特性 出 现在 状态 2 、3 和 4， 以 及 状态 8、9 和 10。 模 型 B. 周期 为 10 个 状态 的 轮 状 模 
型 ， 由 训练 2 000 个 人 类 基因 内 合子 序列 获得 。 在 5" 端 和 3' 端 去 除 25 个 核 苷 酸 ， 以 避免 剪接 位 点 上 的 保守 序 


列 模式 的 影响 。 


实验 显示 上 述 周期 性 在 外 显 子 


h 最 强 ， 而 且 有 可 能 存在 于 内 含 子 序列 中 








与 外 


显 子 直接 相连 的 部 分 ,但 对 于 任意 选择 的 深入 到 内 含 子 内 部 的 片断 ， 这 个 周期 性 
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图 8-18 包含 9 个 状态 的 轮 状 模型 的 生成 分 布 


模型 由 训练 完整 的 mRNA 序列 获得 ， 并 且 不 包含 跳 联 和 自 环 。 周 期 为 3 的 阅读 柜 模 式 清晰 可 见 ， 频 率 较 
ABANG, A 和 T， 以 及 C 和 G 分 别 出 现 在 第 一 、 第 二 和 第 三 密码 子 位 置 上 。 


通常 要 弱 一 些 。 所 有 使 用 简单 线性 从 左 向 右 HMM 构 架 的 实验 ,在 非 编码 区 都 设 
有 发 现任 何 清晰 规则 的 振幅 摆动 模式 。 利 用 轮 状 模型 对 不 同类 型 的 序列 〔 包 括 不 
同类 型 的 外 显 子 、 内 含 子 和 基因 内 区 域 ) 估计 每 个 核 苷 酸 的 概率 的 负 对 数 的 平均 
值 ， 我 们 发 现 周期 模式 在 外 显 子 中 最 强 。 比 对 中 的 周期 (状态 9 的 核 背 酸 之 间 的 
平均 距离 ) 显示 约 为 10.1~10.2 个 核 背 酸 。 

我 们 都 知道 “ 杰 曲 的 DNA”( bent DNA ) 需要 许多 相位 相同 的 独立 的 小 弯 
o LEl 只 有 当 弯 曲 的 相位 周期 约 为 10.5bp《〈 对 应 于 双 螺旋 中 一 个 完整 的 螺旋 ) 
时 ， 才 能 得 到 大 范围 上 稳定 的 曲率 。 应 用 轮 状 模型 对 外 显 子 和 内 含 子 进行 比 对 ， 
发 现 序列 的 周期 性 有 一 种 潜在 的 结构 性 含义 ， 因 为 比 对 序列 的 弯曲 相位 周期 都 
近似 为 10， 显 示 出 相同 的 周期 性 。 序 列 的 可 弯曲 性 根据 序列 相关 的 三 联 体 可 弯 
性 参数 估计 获得 ， 这 个 参数 估计 是 从 DNaseI 消 化 数据 ( DNaseI digestion data ) 
推断 出 来 的 。DNaseI 作 用 于 小 沟 (minor groove) 的 表面 ,使 DNA 分 子 弯曲 并 
远离 酶 分 子 。 实 验 : ”1 定量 地 揭示 出 : 对 于 32 种 双 链 三 联 体 ， 如 AAA/ATT、 
AAA/TTT 和 CCA/TGG 等 ， 可 弯曲 性 参数 在 某 一 范围 之 内 变化 ， 数 值 较 低 表示 
缺乏 弯曲 的 流质， 数值 较 高 则 对 应 于 指向 大 沟 ( major groove) 的 较 大 弯曲 或 可 
福 曲 性 。 外 显 子 和 内 含 子 序列 可 弯曲 性 分 布 图 (bendability profile) 与 核 小 体 定 
位 有 关 。'” 这 些 编码 区 和 非 编 码 区 中 信号 强度 的 差异 ， 对 于 转录 机 制 识别 基因 
可 能 有 特殊 的 含义 。 
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8.2.4 人 类 启动 子 区 的 HMM 


我 们 用 人 类 DNA 启 动 子 区 的 序列 训练 了 一 些 HMM。 在 一 个 实验 中 ， 启 动 子 数 
据 来 自 GenBank。[%1 所 有 序列 包含 转录 起 始点 由 实验 确定 ) 的 上 游 和 下 游 至 少 
各 250 个 核 背 酸 ， 那 些 包含 非 核 苷 酸 字 符 的 序列 都 被 除去 了 。 应 用 参考 文献 [259 ] 
中 的 第 二 种 Hobohm 算 法 和 参考 文献 [ 422 ] 中 介绍 的 一 种 新 颖 的 发 现 相似 性 片断 
(similarity cutoff) 的 方法 ， 可 以 谨慎 地 降低 宛 余 度 。 简 单 地 说 ， 这 种 方法 基于 对 
数据 集 进 行 完全 的 逐 项 比 对 ， 用 一 个 极 值 分 布 来 拟 合 比 对 结果 的 Smith-Waterman 
分 值 , OF" 最 后 从 上 述 分 布 中 选择 一 个 值 使 得 序列 比 预期 的 更 为 常见 。 用 留 下 的 长 
度 均 为 501 的 625 个 序列 ， 训 练 一 个 长 度 为 500 的 标准 线性 构架 〔 详 见 参考 文献 
[421 ] )。 为 了 使 训练 更 有 效 ， 我 们 用 经 过 实验 验证 的 包含 TATA 框 【TAIA-box ) 的 
启动 子 序列 的 保守 序列 概率 ， 来 初始 化 TATA 框 中 主 状 态 上 的 生成 分 布 。 

可 弯曲 性 分 布 图 可 以 通过 训练 完成 的 HMM 直 接 计 算 获 得 (参见 附录 D )， 也 
通过 HMM 了 驱动 的 多 重 序列 比 对 获得 。 图 8-19 显 示 了 一 个 由 多 重 序列 比 对 导出 的 
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图 8-19 人 类 基因 启动 子 的 可 弯曲 性 分 布 图 


转录 起 始 位 点 大 约 在 图 的 中 央 。 总 体 上 ， 可 弯曲 性 在 起 始 位 点 附近 沿 下 游 方向 三 著 增加 。 这 个 平均 分 
布 图 是 根据 多 重 序列 比 对 绘制 的 。 根 据 生 成 概率 而 不 是 实际 的 三联 体 频率 ， 计 算 获 得 的 分 布 图 同样 呈现 出 
非常 相似 的 可 弯曲 性 模式 。 
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分 布 图 。 图 中 最 引 人 注 目的 特性 是 ， 在 临近 转录 起 始点 的 下 游 区 域 中 ， 可 弯曲 性 显 
著 上 升 。 启动 子 的 特征 常常 由 上 游 序 列 中 的 一 些 模式 和 组 成 倾向 性 决定 。 有 趣 的 是 ， 
HMM 比 对 的 结果 预示 启动 子 的 下 游 序 列 带 有 某 种 结构 上 的 相似 性 ， 而 这 些 启动 子 
序列 原本 并 不 相关 。 例 如 ， 它 们 并 不 倾向 于 与 带 有 某 种 特定 功能 的 基因 相关 。 通 过 
仔细 分 析 序 列 的 周期 性 ， 我 们 猜测 下 游 区 可 弯曲 性 的 天 高 可 能 与 核 小 体 定位 以 及 
(RF) 与 涉及 转录 启动 的 其 他 因素 的 相互 作用 有 关 。 我 们 还 用 不 同 的 物理 标 度 ， 
如 堆积 能 4) 、 核 小 体 定位 [281 和 螺旋 桨 式 扭曲 (propeller twist) [20 1 等， 由 
HMM 主 干 上 的 概率 计算 出 一 些 相似 的 分 布 图 。 所 有 的 分 布 图 一 致 显示 在 转录 起 始 
点 附近 有 一 个 强大 的 信号 ， 以 此 区 分 上 游 和 下 游 。 更 多 的 结果 ， 包 括 周 期 模式 ， 在 
参考 文献 [ 421 ] 中 有 更 详细 讨论 。( 关 于 在 序列 分 析 问题 中 如 何 应 用 附加 的 、 结 构 
的 或 其 他 标 度 的 一 般 性 处 理 方法 ， 见 参考 文献 [30 ]。) 













































































HMM 的 优势 和 局 限 性 


8.3.1 优 势 


现在 ， 人 们 已 经 看 到 HMM 在 计算 分 子 生物 学 中 有 许多 优势 。HMM 有 坚实 的 
统计 学 基础 和 有 效 的 学 习 算 法 。 通 过 引入 局 部 可 学 习 概率 (locally learnable 
probability )，HMM 人 允许 以 统一 的 形式 对 插 人 和 删除 进行 补偿 。 模 型 可 以 直接 从 
原始 数据 中 学 习 获 得 。 不 同 于 传统 的 有 监督 的 神经 网 络 学 习 ，HMM 可 以 兼容 不 
同 长 度 的 输 人 序列 ， 并 且 不 需要 一 个 指导 者 。 它 是 序列 分 布 图 最 灵活 的 一 般 化 推 
广 。HMM 可 被 高 效 地 用 于 许多 任务 ， 从 多 重 比 对 、 数 据 挖 据 和 分 类 到 结构 分 析 
和 模式 发 现 。HMM 还 能 够 方便 地 组 合成 模型 库 以 及 模块 或 层次 结构 。 


8.3.2 局 限 性 


虽然 HMM 有 很 多 成 荔 的 应 用 ， 但 它 仍 受 限于 以 下 两 方面 的 弱点 : 

第 一 ， 它 们 经 常 含 有 大 量 无 结构 的 参数 。 在 华 白 质 模型 中 ， 图 7-2 的 构架 总 
共 包 含 大 约 49N 个 参数 〈 40N 个 生成 参数 和 9N 个 转移 参数 )。 对 于 一 个 典型 的 蛋白 
质 家 族 ，w 大 约 为 数 百 ， 这 直接 导致 模型 的 自由 参数 超过 10000。 当 只 能 在 一 个 家 
族 中 获得 很 少 的 序列 时 这 种 情况 在 基因 组 计划 的 早期 并 不 少见 )， 数 据 不 足 可 
能 成 为 一 个 严重 的 问题 。 然 而 ， 我们 应 该 看 到 ， 一 个 典型 的 序列 能 够 提供 2N 个 约 
东 ， 因 此 大 约 25 个 序列 就 可 以 提供 与 HMM 人 参数 数量 相当 的 训练 样本 。 

第 二 ，1 阶 HMM 受 其 1 阶 马 尔 可 夫 性 质 的 限制 ， 即 它们 无 法 表示 隐 状 态 之 间 
的 依赖 关系 。 蛋 白质 是 通过 折 营 成 复杂 的 三 维 形状 来 决定 其 功能 的 。 在 多 肽 链 上 ， 
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可 能 存在 单 HMM 难 以 达到 的 微妙 的 长 程 相关 性 。 例 如 ， 假 设 一 旦 在 位 置 ; 上 发 现 
X， 随 后 通常 在 位 置 } 上 发 现 Y; 而 一 旦 在 位 置 i 十 发 现 X' ， 踏 后 通常 在 位 置 ;上 发 
现 Y' 。 一 个 典型 的 单 8MM 在 位 置 ; 和 ;上 有 两 个 固定 的 生成 概率 向 量 。 因 此 无 法 捕 
提 到 这 样 的 相关 性 。 带 有 合理 约束 的 HMM 仅 仪 能 够 表达 可 能 的 序列 空间 上 极 少 
的 一 些 分 布 .< 然而， 我 们 也 注意 到 ，HMM 能 够 轻易 地 捕捉 到 一 个 序列 家 族 中 不 
变 的 长 程 相关 性 ， 即 便 这 一 相关 性 是 由 三 维 相互 作用 导致 的 。 例 如 ， 对 于 一 个 蛋 
白质 家 族 中 的 两 个 线性 间隔 的 区 域 ， 由 于 在 三 维 结构 中 彼此 靠近 ， 它 们 一 定 有 共 
同 的 亲 水 性 模式 。 相 同 的 亲 水 性 模式 将 在 家 族 的 所 有 成 员 中 出 现 ， 并 且 很 可 能 反 
映 在 相应 HMM 训 练 后 的 生成 参数 上 。 

第 9~11 章 尝试 着 超越 HMM， 具 体 的 方法 包括 : 将 HMM 与 神经 网 络 组 合 以 构 
造 混合 模型 (第 9 章 )， 对 进化 过 程 建 模 (第 10 章 )， 以 及 扩大 HMM 的 生成 规则 集 
合 (Sue), 












































© 任何 分 布 都 可 以 用 一 个 指数 规模 的 HMM 表 示 。 其 中 ，-~… 个 初始 状态 与 不 同 的 确定 性 状态 序列 相连 接 ; 对 于 
任意 可 能 的 符号 序列 ， 有 一 个 与 序列 本 身 的 概率 相等 的 转移 概率 。 
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9.1 生物 信息 学 中 的 图 模型 概述 


把 贝 叶 斯 系统 应 用 到 典型 的 现实 问题 时 ， 我 们 所 遇 到 的 首要 障碍 之 一 是 高 维 
概率 分 布 问题 。 这 是 因为 我 们 所 获得 的 数据 是 高 维 的 ， 所 用 的 模型 也 是 高 维 的 ， 通 
常 问题 所 涉及 的 参数 有 几 千 个 甚至 更 多 。 高 维 也 来 自 于 其 他 一 些 被 称 为 隐 变 量 的 变 
量 。 一 般 地 ， 高 维 造成 的 全 局 分 布 PLD, M, 名 在 数学 上 是 很 难处 理 的 ， 而 这 正 是 图 
模型 理论 发 挥 作用 的 地 方 。 根 据 在 现实 世界 中 大 多 数 依赖 关系 是 局 部 依赖 关系 这 样 
一 个 事实 ， 高 维 分 布 可 以 用 定义 在 较 小 空间 上 一 簇 变量 分 布 的 乘积 进行 估计 ， 这 使 
问题 容易 处 理 。'”*?1 例 如， 在 标准 马尔 可 夫 模 型 中 ，t+1 时 刻 的 现象 仅仅 通过 现 
在 ! 时 刻 的 现象 与 过 去 发 生 联 系 。 因 此， 全 局 概率 分 布 P(X,, …, XW) 可 以 分 解 成 形式 
为 PCX,lX) 的 局 部 概率 分 布 的 乘积 。 

为 了 更 明确 起 见 ， 我 们 把 注意 力 集中 在 一 类 特殊 的 图 模型 ， 即 贝 叶 斯 网 络 ( 图 
模型 的 更 正式 的 处 理 见 附录 C )。[46: 贝 叶 斯 网 络 由 带 有 N 个 节点 的 有 向 无 环 图 组 
成 。 每 一 个 节点 联系 着 一 个 随机 变量 Xi。 模 型 的 参数 是 每 一 个 随机 变量 的 局 部 条 
件 概率 或 特征 ， 这 些 随机 变量 由 与 父 节点 PCX; X: je N-() 相 关联 的 随机 变量 给 
出 ， 其 中 N70) 表示 节点 :的 所 有 父 节点 的 集合 。 贝 叶 斯 网 络 的 与 尔 可 夫 独 立 性 假设 
等 价 于 以 下 的 全 局 因子 分 解 特性 : 































































































PO, x0=T IPod jera (9.1) 





换言之 ， 全 局 概率 分 布 是 所 有 局 部 特征 的 乘积 。 实 际 应 用 上 ， 在 贝 时 斯 网 络 中 ， 
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边 的 方向 用 于 表示 困 果 关系 或 时 间 延 续 关 系 。 因 此 ， 贝 叶 斯 网 络 被 大 量 用 于 建立 
生物 序列 模型 的 时 代 已 经 到 来 ， 这 一 点 并 不 令 人 感到 惊奇 。 此 外 ， 贝 叶 斯 网 络 还 
以 类 似 的 方式 用 于 建立 语音 模型 或 其 他 序列 相关 模型 ， 以 及 用 于 构造 专家 系统 。 
事实 上 上， 对 于 生物 〈 或 其 他 ) 序列 ， 贝 叶 斯 体系 允许 我 们 为 之 构建 一 组 复杂 
度 递 增 的 贝 叶 斯 网 络 模型 。 这 组 模型 的 等 级 结构 基于 这 样 的 事实 : 在 某 些 层次 上 ， 
生物 序列 具有 顺序 排列 的 主体 结构 。 我 们 考虑 的 关于 生物 序列 的 最 简单 的 概率 模 
型 ， 是 第 3 章 中 涉及 的 具有 4 个 面 〈 代 表 DNA 的 4 种 核 苷 酸 ) 或 20 个 面 ( 代表 蛋白 
质 的 20 种 氨基 酸 ) 的 仍 子 模型 ( 见 图 3-1 )。 这 种 模型 可 以 表示 为 单个 节点 或 多 个 
不 连通 的 相同 节点 组 成 的 贝 叶 斯 网 络 ( 后 者 效果 更 好 )， 每 个 节点 对 应 于 序列 或 序 
列 族 中 的 一 个 位 置 。 尽 管 仙子 模型 非常 简单 而 且 远 离 实际 的 生物 序列 ， 但 它 是 研 
究 生物 序列 问题 的 第 一 步 ， 并 且 通 常 被 当做 背景 模型 与 更 复杂 的 方法 进行 比较 。 

更 进一步 ， 我 们 可 以 设想 一 个 由 不 同 假 子 组 成 的 序列 ， 每 一 般 子 代表 序列 中 
的 一 个 位 置 。 这 基本 上 就 是 我 们 用 于 生成 序列 谱 的 模型 ， 例 如 对 已 有 的 多 重 序列 
比 对 进行 抽象 。 如 果 我 们 将 模型 中 的 节点 连接 成 一 条 从 左 到 右 的 链 ， 就 得 到 了 标 
准 的 1 阶 马尔 可 夫 模 型 。 建 立 2 阶 和 更 高 阶 的 马尔 可 夫 模 型 也 是 可 能 的 ， 在 这 类 模 
型 中 ， 现 在 状态 可 能 依赖 于 直接 相 邻 的 前 几 个 过 去 状态 。 这 类 模型 的 贝 叶 斯 网 络 
表示 的 主要 缺点 显而易见 ， 即 随 着 阶 数 的 增长 ， 模 型 的 参数 空间 呈现 组 合 爆炸 。 
然而 ， 对 于 像 DNA 这 样 字符 集 比较 小 的 问题 ， 阶 数 高 达 6 阶 的 马尔 可 夫 模 型 仍然 
是 可 行 的 ， 并 且 常 见于 有 关 基 因 发 现 等 应 用 的 文献 中 ( 钢 图 9-1 )。 
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图 9-1 复杂 度 递 增 的 马尔 可 夫 模型 的 贝 叶 斯 网 络 表 示 


阶 数 为 0 的 马尔 可 夫 模 型 对 应 于 单个 盘子 或 独立 般 子 的 集合 。 阶 数 为 1 的 马尔 可 夫 模型 对 应 于 标准 的 1 
酚 马 尔 可 夫 链 。 在 阶 数 为 2 的 马尔 可 支 模型 中 ， 现 存 状态 依赖 于 前 2 个 过 去 状态 。 所 有 阶 数 为 ;的 HMM 均 具 
有 这 里 给 出 的 相同 的 贝 叶 斯 网 络 表示 。 
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然而 ， 简 单 的 从 左 到 右 的 马尔 可 夫 模 型 并 不 直接 反映 插 人 和 删除 操作 。 我 们 
已 经 看 到 ， 这 类 操作 可 以 通过 隐 马 氏 模型 (HMM ) 进行 处 理 。HMM 很 容易 表示 
为 贝 叶 斯 网 络 。 贝 叶 斯 网 络 对 其 他 模型 的 表示 也 与 之 类 似 ， 如 Kalman 滤 波 器 。 
HMM 的 只 叶 斯 网 络 表示 阐明 了 它们 的 概率 结构 、 由 应 信息 的 传播 以 及 学 习 算法 ， 
例如 著名 的 前 向 一 后 向 算法 和 EM/ 梯 度 下 降 法 的 其 他 各 种 变 体 。 ”1 

更 复杂 的 马尔 可 夫 模 型 已 经 被 用 于 人 工 智能 ， 例 如 输出 依赖 于 两 条 或 多 条 前 


向 马尔 可 夫 链 的 因子 
































HMM。 例 如 ， 在 语音 相关 的 领域 中 ， 可 以 用 一 条 链表 示 音 


频 信 息 ， 用 另 一 条 链表 示 口 形 的 视频 信息 。[?93205] 参考 文献 40,58] 中 描述 了 
另 一 类 称 为 输入 -输出 HMM (IOHMM ) 的 模型 ， 我 们 将 在 后 续 章节 中 讨论 这 类 
模型 ( 见 图 9-2 )。 这 类 模型 能 将 一 个 给 定 的 输入 序列 翻译 成 一 个 能 定义 于 不 同 字 
符 集 上 的 输出 序列 。 





因子 
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图 9-2 因子 HMM 和 IOHMM 的 贝 叶 斯 网 络 表示 





关于 生物 序列 的 一 项 重要 观察 结果 指出 ， 实 际 的 生物 序列 基于 某 种 空间 结构 ， 
而 不 是 时 间 结 构 。 特 别 是 来 自 “将 来 ”的 信息 可 以 用 来 解释 “现在 ”的 现象 ， 而 不 
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to BEF 





果 性 的 约束 。 根 据 这 一 点 ， 至 少 可 以 在 前 面 的 模型 中 引 人 后 向 马尔 可 夫 


人 的 过 程 中 





必须 非常 小 心 ， 因 为 很 容易 证 明 : 通过 变量 替换 ， 一 条 简单 


的 后 向 与 尔 可 夫 链 可 以 完全 等 价 于 一 条 对 应 的 前 向 马尔 可 夫 链 。 而 这 两 个 相应 的 由 
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叶 斯 网 络 模型 的 参数 可 以 通过 贝 叶 斯 定理 相 联系 。 司 样 地 ， 如 果 改 变 一 个 因子 
HMM 中 一 条 链 的 方向 ， 我 们 将 得 到 另 一 个 完全 相同 的 因子 HMM， 而 实际 上 我 们 几 
平 什么 也 没 得 到 ( 见 图 9-3 )。 然 而 ， 如 果 在 一 个 IOHMM 中 引 和 人 一 条 后 向 链 ， 我 们 
将 获得 一 类 新 模型 ， 称 为 双向 输入 -输出 HMM ( BIOHMM ) ( 见 图 9-4 ) (5) 


后 向 1 阶 马 尔 可 夫 模型 OS 


























双向 的 因子 HMM 


图 9-3 后 向 马尔 可 夫 链 的 贝 叶 斯 网 络 表 示 
图 中 的 所 有 后 向 链 都 可 以 通过 简单 的 变换 由 前 向 链 替代 。 


BIOHMM 
图 9-4 一 个 BIOHMM 的 由 时 斯 网 络 表示 
注意 图 中 存在 大 量 的 无 向 环 。 








9.2 
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我 们 将 在 本 章 的 最 后 一 节 中 讨论 BIOHMM 及 其 相关 的 模型 在 蛋白 质 二 级 结 
构 预 测 中 的 应 用 。 下 面 我 们 将 首先 介绍 概率 图 模型 在 序列 分 析 中 的 应 用 ， 特 别 
是 DNA 的 对 称 人 性 、 基 因 发 现 、 基 因 分 析 以 及 结合 神经 网 络 与 图 模型 的 一 般 技 
术 。 
































马尔 可 夫 模 型 与 DNA 的 对 称 性 


在 一 段 双 螺 旋 的 PNA 链 中 ， 碱 基 A 的 数目 与 碱 基 T 的 数 日 相等 ， 碱 基 C 的 数目 
与 碱 基 G 的 数目 相等 。 在 20 世 纪 50 年 代 早期 ， 正 是 这 个 今天 看 起 来 微不足道 的 性 
质 指导 沃 森 和 克 里 克 发 现 了 DNA 的 双 螺 旋 结 构 。 这 一 性 质 也 以 夏 加 夫 第 一 奇偶 校 
验 准 则 〈 Chargaff's first parity rule) 的 形式 为 人 们 所 熟知 。[181 然而 ， 夏 加 天 第 
二 奇偶 校 验 准则 ( Chargaff's second parity rule) 却 很 少 为 人 所 知 。 后 者 指出 ， 同 
样 的 规律 在 长 度 合适 的 DNA 单 链 中 也 近似 成 立 。 这 一 准则 首先 在 20 世 纪 60 年 代 提 
Hh, [94291 近 年 来 已 经 得 到 了 一 定 程度 的 认可 。'0185211 

夏 加 夫 第 二 奇偶 校 验 准则 的 正确 性 可 以 通过 研究 不 同 的 组 织 、DNA 的 不 同 

类 型 ( 如 编码 和 非 编码 DNA ) 以 及 不 同 长 度 范围 的 DNA 等 来 确定 。 为 简单 起 
见 ， 这 里 我 们 只 考察 酵母 基因 组 中 的 DNA。 如 果 分 别 测量 酵母 的 每 条 染色 体 的 
沃 琳 和 克 里 克 链 中 DNA 的 组 成 成 分 ， 我 们 将 发 现 这 些 组 成 成 分 相当 稳定 ， 而 且 
符合 夏 加 夫 第 二 奇偶 校 验 准则 ， 即 A 和 T 各 占 大 约 30%，C 和 G 各 占 大 约 20% 
《 表 9-1 )。 同 样 的 对 称 性 在 酵母 线粒体 DNA 中 也 被 观察 到 ， 但 是 组 成 的 比例 有 
所 差别 。 同 样 地 ， 在 其 他 组 织 的 单 链 DNA 中 ， 其 组 成 成 分 有 所 不 同 但 仍 具 有 对 
称 性 。 
为 了 研究 双 链 DNA 的 对 称 性 ， 我 们 统计 某 一 给 定 长 度 DNA 的 每 条 链 上 碱 基 
出 现 的 频率 。 这 些 频 率 对 应 于 1 阶 马尔 可 夫 模 型 。 当 然 ， 我 们 也 可 以 通过 考察 对 
应 于 个 连续 状态 的 统计 结果 来 研究 高 阶 ( 阶 数 为 N ) 马尔 可 夫 模 型 。 特 别 地 ， 我 
们 可 以 考察 ， 除 1 阶 马 尔 可 夫 模 型 之 外 ， 夏 加 夫 第 二 奇偶 校 验 准则 是 否 对 高 阶 也 
成 立 ， 例 如 考察 等 价 于 2 阶 马 尔 可 夫 模 型 的 二 核 苷 酸 。 
一 个 阶 数 为 N 的 DNA 马 尔 可 夫 模 型 有 4 个 参数 与 转移 概率 PCCz…… Xy JASE, 
也 可 以 写 为 PC Xj 一 XW)。 其 中 ， 对 于 字符 集中 的 所 有 可 能 的 符号 X,…,X%， 有 
形 如 zx(X,,…, Xy 1) 的 初始 概率 分 布 。 由 于 模型 的 参数 以 指数 级 增长 ， 因 此 有 限 的 数 
据 集 只 能 确定 阶 数 在 一 定 范围 内 的 模型 。 例 如 5 阶 的 DNA 马 尔 可 夫 模型 共有 1 024 个 
参数 ， 而 10 阶 的 DNA 马 尔 可 夫 模 型 的 参数 则 超过 100 万 。 相 应 地 ， 阶 数 越 高 ， 确 定 
合适 的 模型 所 需要 的 数据 量 就 越 大 。 
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9-1 酵母 基 央 组 和 线粒体 中 每 条 染色 体 的 DNA 的 1 阶 分 布 




































































































































































A C G T 碱 基 总 数 [bp ) 

] 号 染色 体 69 830 44 641 45 763 69 969 230 203 
30.33% 19.39% 19.88% 30.39% 

2 号 染色 体 249 640 157415 154 385 251 700 813 140 
30.70% 19.36% 18.99% 30.95% 

3 号 染色 体 98 210 62 129 59 441 + 95 559 315 339 
31.14% 19.70% 18.85% 30.30% 

4 号 染色 体 476 752 289 343 291 354 474 480 1531929 
31.12% 18.89% 19.02% 30.97% 

SIARA 176 531 109 828 12314, 178 197 576 870 
30.60% 19.04% 19.47% 30.89% 

6 号 染色 体 82 928 52 201 52435 82 584 270 148 
30.70% 19.32% 19.41% 30.57% 

7 号 染色 体 338 319 207 764 207 450 337 403 1090936 
31.01% 19.04% 19.02% 30.93% 

8 号 染色 体 174 022 109 094 107 486 172.036 562 638 
30.93% | 19.39% 19.10% 30.58% 

9 号 染色 体 134 340 85 461 85 661 134 423 439 885 
30.54% 19.43% 19.47% 30.56% 

40 号 染色 体 231097 142 211 143 803 228 329 745 440 
31.00% 19.08% 19.29% 30.63% 

1 号 染色 体 206 055 127 713 126 005 206 672 666 445 
30.92% 19.16% 18.91% 31.01% 

12 号 染色 体 330 586 207 777 207 064 332 745 1078 172 
30.66% 19.27% 19.21% 30.86% 

13 号 染色 体 286 296 176 735 176 433 284 966 924 430 
30.97% 19.12% 19.09% 30.83% 

14 号 染色 体 241 561 151651 152 388 239 728 784 328 
30.80% 19.34% 19.30% 30.56% 

15 938 lk 339 396 209 022 207 416 335 449 1091 283 
31.10% 19.15% 19.01% 30.74% 

16 号 染色 体 293 947 180 364 180 507 293 243 948 061 
31.01% 19.02% 19.04% 30.93% 

线粒体 染色 体 36 169 6863 7813 34934 85779 
42.17% 8.00% 9.11% 40.73% 

16 条 核 染色 体 3729 510 2313 349 2 308 905 3717 483 12 069 247 
30.90% 19.17% 19.13% 30.80% 

所 有 的 染色 体 3765 679 2320212 2316718 3752417 12 155 026 
30.98% 19.09% 19.06% 30.87% 
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由 于 两 条 链 的 互补 性 ，.- 条 链 上 阶 数 为 的 切 尔 可 夫 模 型 直接 定义 了 对 应 的 反 
向 互补 链 上 阶 数 为 N 的 马尔 可 大 模型 。 如 果 一 条 链 上 的 N 阶 模型 与 其 反 向 互补 链 上 的 


罗 阶 模型 完全 一 致 ， 我 们 则 称 该 模型 是 对 称 的 。 导 
已 如 总 ) 时 ， 马 尔 可 夫 模 型 才 是 对 称 的 。 例 如 考察 酵母 
数 不 小 于 9 的 所 有 高 阶 马 尔 可 夫 模 型 中 ， 
序列 中 也 是 如 此 。( 表 9-2 ) 有 人 认为 这 种 
如 果 P(U)=P(D 和 P(UA4)=P(4)P(4)， 则 有 PP 
马尔 可 去 模型 是 否 可 分 解 ， 即 高 阶 己 尔 可 














EKE, MAMRSPX Xe 


} 基 内 组 的 DNA 序 列 ， 在 阶 


我 们 发 现 很 高 程度 的 对 称 性 ， 即 便 在 各 种 子 
对 称 件 可 以 通过 1 阶 对 称 性 米 解 释 。 事实 上 ， 
(44)=P(TD)。 这 个 问题 的 准 铺 提 法 是 : 高 阶 
| 夫 模 型 能 否 通过 





低 阶 模 卉 的 乘积 完全 决定 。 


表 9-2 2 阶 转移 参数 和 酵母 上 游 区 500 bp AERA 







































































ACA 0.364 3 AA o1154 | 

AT 0.280 6 AT 0.088 9 

ASG 0.1858 AG 0.058 9 

= 0.168 4 AG 0.0533 

TOA 0.2602 TA 0.0814 

TT 0.3662 TT 0.1146 

T26 01858 TG 0.058 1 

TC 0.188 2 TC 0.058 9 

GTA 03166 GA 0.058 1 

GT 02784 GT 0.0511 

GG 0.1945 GG 0.0357 

GG 0.2106 GC 0.0387 

CoA 0.330 4 CA 0.0679 

CT 03116 oT 0.058 3 

cG 0.1639 TG 0.0307 

E C=C 0.1941 CC 0.036 4 
更 正式 地 ， -个 阶 数 为 N 的 马尔 可 大 模型 导出 低 阶 长 度 为 M 的 词 ( M-mers ) 
的 分 布 ， 称 为 原始 分 布 的 限制 或 投影 。 这 种 投影 很 容易 得 到 ， 例 如 可 以 利用 阶 数 
为 N 的 马尔 可 夫 模 型 生成 一 个 长 字符 申 并 计算 长 度 为 MM 的 词 的 统计 值 。 特 别 地 ， 





从 阶 数 为 N 的 马尔 可 大 模型 导出 的 1 阶 平衡 分 布 一 定 满足 以 下 平衡 方程 ; 





PX, X= D POMY, Xa, Xp POW, Nast Xu) (9.2) 
Y 


如 果 N 阶 马尔 可 夫 模型 是 对 称 的 ， 则 它 的 低 阶 限制 或 投影 也 是 对 称 的 。 然 而 ， 
反之 纯 不 成 立 。 一 般 地 ， 一 个 阶 数 为 N 的 对 称 马 尔 可 夫 模 型 能 够 以 多 种 形式 扩展 


为 M 阶 马尔 可 夫 异 型 ， 其 中 M > N， 但 扩展 后 的 模型 不 一 定 是 对 称 的 。 央 此 ， 醇 母 








的 1 阶 分 布 具 有 对 称 性 ， 并 不 意味 着 它 的 2 阶 分 布 也 是 对 称 的 。 然 而 ， 一 个 给 定 的 
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阶 数 为 N 的 马尔 可 夫 模 型 有 惟一 的 到 阶 数 为 4M (M > N ) 的 马尔 可 夫 模型 的 因子 扩 
FE. 例如， 一 个 由 参数 px (pa, Po Par Pr) 定义 的 1 阶 马 尔 可 夫 异 型 有 一 个 带 有 
参数 pxy=pxpy 的 2 阶 因 子 扩展 。 

对 于 一 个 给 定 的 阶 数 为 N 的 马尔 可 夫 模 型 ， 通 过 任意 低 阶 的 马尔 可 夫 模 型 ， 
我 们 都 可 以 提取 它 的 对 称 因 子 。 对 于 每 一 个 长 度 为 N 的 词 ( N-mers ) 和 它 的 反 向 
互补 链 , 我 们 可 以 得 到 由 N 阶 马尔 可 夫 模 型 确定 的 期 望 次 数 与 由 被 用 做 因子 分 解 
的 杂 阶 马尔 可 夫 模 型 确定 的 期 望 次 数 之 间 的 比值 。 对 称 性 的 残 差 可 以 通过 长 度 为 N 

























































































的 词 及 其 反 向 志 补 链 之 问 这 一 比值 的 相关 性 来 度量 。 如 果 对 酵母 应 用 这 种 方法 ， 
我 们 发 现在 高 阶 模型 中 存在 大 景 对 称 性 的 残 差 ， 这 点 不 能 通过 1 阶 成 分 的 对 称 性 等 
素 加 以 解释 ( 表 9-3 》。 
表 9-3 次 数 与 对 称 现象 

2 3 4 5 6 7 8 9 

o 10 99 E 99 E 39 37 35 

1 98 | 97 7 7 35 30 77 55 

2 a 95 本 EN 83 66 45 

f 3 37 94 89 7 57 36 

了 82 73 38 EJ 24 

5 “60 46 29 18 

6 34 21 4 

7 T2 T0 

8 了 09 



































0 行 表示 邻接 的 上 游 链 与 其 反 向 互补 链 两 者 的 长 度 为 N 的 词 的 次 数 CUN=2,…,9) 之 间 的 相关 系数 。 在 行 
4 1 到 8， 相 似 的 相关 系数 用 比率 CE(C) 计 算得 到 ， 其 中 三 C) 是 由 适合 上 游 区 的 1 阶 马 尔 可 夫 模 青 产 生 的 次 
数 (C) 的 期 望 值 。 水 平方 向 = 词 的 长 度 ， 生 直方 向 -模型 阶 数 。 


因此 ,高 阶 马尔 可 夫 模 型 可 以 使 我 们 更 详细 地 研究 夏 加 夫 第 二 奇偶 校 验 准则 。 
当然 ， 夏 加 天 第 二 奇偶 校 验 准则 对 于 局 部 序列 是 不 成 立 的 ， 某 些 病毒 基因 组 也 不 
满足 这 一 准则 。 昌 然 我 们 都 知道 ， 在 原核 基因 组 中 ， 复制 起 始点 附近 存在 成 分 仿 
差 ， 但 大 体 上 夏 加 夫 第 二 奇偶 校 验 准则 还 是 显著 有 效 的 ， 这 或 许 是 不 同 尺度 下 的 
各 种 因素 综合 作用 的 结果 。 根 据 复 加 夫 第 一 奇偶 校 验 准 则 ， 任 何 对 DNA 两 条 链 不 
加 区 别 的 外 加 作用 都 将 对 夏 加 大 第 二 奇偶 校 验 准则 有 所 贡献 。 由 辆 射 导 致 的 突变 
可 能 就 属于 这 类 情况 。 同 样 的 ， 为 了 产生 相同 数目 的 互补 碱 基 对 ， 细 胞 的 复制 机 
制 就 必须 被 优化 ， 这 也 应 该 支持 夏 加 夫 第 二 奇偶 校 验 准 则 的 1 阶 形式 。 人 们 正在 
研究 这 一 准则 在 更 大 范围 内 的 影响 ， 例 如 在 DNA 每 一 条 链 上 基因 的 近似 对 称 分 布 
( 表 9-4 )， 这 种 分 布 也 能 通过 概率 马尔 可 夫 模 者 来 建 模 。 
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表 9-4 酵母 的 每 条 链 和 每 条 染色 体 中 长 度 大 于 100 的 ORF 的 数目 

DNA W ORF | co | «ase | 
1 号 染色 体 56 : 51 107 
2 号 染色 体 200 226 426 
3 号 染色 体 75 99 174 
4 号 染色 体 400 419 819 
5 号 染色 体 146 141 287 
6 号 染色 体 67 67 134 
7 号 染色 体 298 273 571 
8 号 染色 体 153 131 284 
9 号 染色 体 106 118 224 
10 号 染色 体 201 186 387 
11 号 染色 体 175 161 336 
12 号 染色 体 261 286 547 
13 号 架 色 体 246 244 490 
148 eee fe 219 201 420 
15 号 染色 体 295 278 573 
16 号 染色 体 256 244 500 

总 数 3 154 3125 6279 二 














统计 中 排除 了 tRNA 和 rRNA 基因 ， 总 数 中 不 包括 线粒体 染色 体 。 


马尔 可 夫 模 型 和 基因 发 现 程序 








马尔 可 夫 模 型 和 图 模型 在 基因 分 析 中 最 重要 的 一 类 应 用 是 构造 各 种 基因 发 现 
和 基因 分 析 程 序 ， 已 有 的 程序 包括 GeneMark 和 GeneMark.hmnm :8l82367] 、 
GLIMMER ““") | Gram!) 、GenScan l”! 和 现在 的 GenomeScan、Genie [441 
等 。 本 章 中 ， 我 们 的 目的 不 是 给 出 所 有 基因 发 现 程 序 详尽 的 列表 或 详细 描述 这 些 各 
序 ， 也 不 在 于 比较 它们 各 自 的 优 缺 点 。 我 们 旨 在 提供 一 个 全 面 的 楼 述 ， 以 展示 如 何 
通过 概率 图 模型 来 构造 和 理解 各 种 基因 发 现 程序 。 

集成 的 基因 发 现 和 基因 分 析 程序 一 般 具有 模块 结构 ， 而 且 通 常 采用 相同 的 基 
本 设计 策略 。 它 们 包括 两 类 基本 模块 ， 分 别 用 于 发 现 边界 元 素 和 可 变 长 度 区 域 。 
与 局 部 信号 相关 的 边界 模块 包括 : 剪接 位 点 ， 起 始 和 终止 密码 子 ， 各 种 转录 因子 
和 其 他 蛋白 质 结合 位 点 〈 例如 TATA 杠 )， 转 录 起 始 位 点 ， 分 支点 ， 转 录 终止 子 ， 
RAR PRL (polyadenylation), BHR AAR, HEME 工 剪 切 位 点 ， 
拓扑 异 构 酶 下 结合 位 点 等 。 区 域 模块 通常 与 外 显 子 、 内 含 子 和 基因 间 区 域 相 关 。 
根据 众所周知 的 统计 上 的 差别 ， 外 显 子 模型 通常 依次 分 为 初始 、 中 间 和 末端 外 显 
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子 。 最 后 ， 整 个 基因 





种 重复 区 域 。 


疼 9-5、9-6、9-7 和 9~8 分 别 给 出 了 各 种 基因 发 现 程序 的 高 层 结构 





组 的 计算 模型 还 包括 其 他 一 些 区 域 ， 诸 如 Alu 序 列 之 类 的 各 








cS 
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示 。( 使 














图 9-5 原核 基因 组 的 GeneMark 的 图 表示 


对 于 原核 基因 组 ， 典 型 高 层 模 块 包括 编码 区 模块 和 非 编码 区 模块 、 











正 链 的 编码 区 ， 长 
度 为 ;的 典型 基因 
正 链 终止 
正 链 的 编码 区 ; 长 
度 为 的 非典 型 基因 










到 链 的 编码 区 : 长 
度 为 m 的 非典 型 基因 









图 9-6 原核 基因 组 的 GeneMark.hmm 的 图 表示 
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9-7 真 核 基因 组 的 GeneMark.hmm 的 高 层 状态 的 图 表示 


模型 包括 的 状态 对 应 于 正 向 和 反 向 链 中 所 有 阅读 框 中 的 初始 和 来 端 外 显 子 、 内 部 外 显 子 以 


RART 





用 这 些 岁 表 得 到 了 原作 者 的 许可 。) 由 于 出 现 外 显 子 和 内 含 子 等 原因 ， 真 核 生物 
的 基因 发 现 程序 的 高 层 结构 图 示 及 上 其 相关 的 具体 图 模型 比 原核 生物 要 复杂 得 多 。 


这 些 示意 
































中 的 模型 没有 直接 表示 为 贝 叶 斯 网 络 ， 而 仅仅 是 一 种 状态 转换 图 ， 正 
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如 第 7 章 中 我 们 没有 用 贝 叶 斯 网 络 表示 HMM 的 标准 构架 一 样 ， 这 种 表示 法 我 们 在 
本 章 的 第 一 部 分 中 已 经 见 到 了 。 事 实 上 ， 至 少 在 某 种 程度 上 ， 大 多 数 基因 发 现 程 
序 可 以 看 做 是 HMM 或 HMM 的 变形 。 

在 这 些 图 示 中 ， 高 层次 的 节点 代表 边界 和 区 域 模块 。 在 基因 发 现 程序 中 ， 横 
块 的 选择 和 训练 实现 之 间 有 一 些 不 同 。 在 边界 模块 情况 下 ， 早 期 的 实现 用 简单 的 
保守 序列 。 后 来 发 展 为 用 序列 谱 或 权重 矩阵 方法 和 马尔 可 夫 模 型 ， 序 列 谱 或 权 董 
算 阵 方法 是 1 阶 马尔 可 夫 模 型 的 特 吻 情形 ， 其 中 的 分 值 采用 对 数 似 然 度 或 对 数 似 
然 度 比 形式 。 由 于 DNA 的 字符 集中 只 有 4 种 字符 ， 因 此 当 存 在 足够 的 训练 数据 的 
时 候 ， 边 界 模块 的 实现 也 可 以 用 高 阶 马 尔 可 夫 模型 。 在 代数 学 上 ， 神 经 网 络 可 以 
看 做 是 权重 矩阵 方法 的 推广 ， 它 也 可 以 用 在 一 些 边界 模块 的 实现 上 。 

变 长 区 域 建 模 通常 用 阶 数 不 高 于 6 的 马尔 可 夫 模 型 。 特 别 地 ， 编 码 区 有 明显 
的 3 和 6 周期 性 ， 这 些 周 期 性 很 容易 被 组 合 到 3 阶 或 6 阶 的 马尔 可 夫 模 型 中 。 外 显 子 
模型 必须 考虑 阅读 杠 ， 阅 读 框 的 信息 必须 以 某 种 方式 通过 插 人 序列 传递 给 下 一 个 
外 显 子 。 状 态 连续 件 不 但 可 用 于 建立 不 同 的 阅读 框 ， 而 且 可 用 于 建立 每 种 成 分 的 
长 度 分 布 模型 ， 即 系统 在 每 种 状态 下 应 该 持续 多 久 。 这 种 持续 性 也 可 以 通过 从 已 
有 数据 中 提取 经 验 分 布 或 者 用 理论 分 布 拟 合 训练 数据 进行 建 模 和 调整 〈 见 参考 文 
献 [ 154 ] )。 因为 基因 可 以 出 现在 两 条 链 中 任意 一 条 从 5 A3 的 方向 上 ， 基 因 发 
现 程序 必须 能 够 以 镜像 方式 在 两 种 倩 况 下 建 借 。 一 个 基因 投影 色相 对 应 的 另 一 条 
链 上 ， 因 此 能 通过 探测 一 条 链 找 到 另 一 条 链 上 的 基因 。 
利用 动态 规划 和 Viterbi 寻 径 法 (Viterbi paths ) ( 如 最 大 似 然 估计 、 极 大 后 
验 概率 法 ， 甚 至 在 参考 文献 [ 339 ] 中 急 述 的 条 件 极 大 似 然 法 )， 这 些 模型 能 用 
于 探测 和 分 析 大 的 基因 组 区 。 根 据 这 些 区 域 大 小 的 不 同 ， 这 些 方法 在 计算 上 可 
能 要 求 比较 高 。 利 用 包含 在 大 型 EST 和 和 蛋白 质数 据 库 中 关于 编码 区 的 信息 ， 诸 如 
Pfam 数 据 库 等 的 HBMM 和 模型 的 数据 库 以 及 比 对 方法 , 可 以 进一步 筛选 和 提高 性 能 。 
各 种 边界 和 区 域 模型 的 参数 选择 可 以 适合 不 同 的 组 织 ， 其 至 适合 带 有 不 同 成 分 
或 不 同 基 闪 类 的 基因 组 区 域 ， 最 终 形成 了 各 种 专门 的 基因 发 现 程序 和 基因 分 析 
程序 。 

虽然 基因 发 现 程序 的 性 能 不 易 度量 和 比较 ， 但 总 体 上 说 ， 基 因 发 现 程序 的 性 
能 比 过 去 几 年 有 了 显著 提高 。 现 在 这 些 程序 在 基因 组 注释 计划 中 起 到 了 重要 的 作 
用 。 尽 管 如 此 ， 仍 有 一 些 意义 重大 的 挑战 留待 我 们 解决 ， 例 如 更 好 地 建立 调控 区 
模型 和 选择 性 剪接 模型 。 
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图 9-8 GenScan 中 隐 状 态 的 图 表示 
该 图 与 图 9-7 燃 似 ， 注 意 增加 的 状态 ， 例 如 poly-A 信 和 导 。 
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9.4 “混合 模型 和 图 模型 的 神经 网 络 参 数 化 


9.4.1 一 般 体 系 


为 了 克服 HMM 的 局 限 性 ， 这 里 我 们 考察 把 HMM 和 神经 网 络 结合 起 来 形成 混 
合 模型 的 可 能 性 ， 这 种 混合 模型 包含 了 神经 网 络 的 表达 能 力 和 HMM 处 理 连 续 时 间 
序列 的 能 力 。 在 这 一 部 分 中 ， 我 们 大 多 沿用 参考 文献 [ 40 ] 中 的 推导 。HMM 和 神 
经 网 络 的 结合 有 许多 方式 。 混 合 模型 已 经 被 用 于 语音 和 笔迹 的 识别 。'”™'*i 在 许 
多 这 些 应 用 中 ， 神 经 网 络 被 当做 前 端 处 理 器 提取 各 种 特征 ， 如 笔画 、 字 符 、 音 素 
等 。 这样，HMM 可 用 在 词 和 语言 建 模 等 更 高 级 的 处 理 阶段 。 9 虽然 有 一 些 例外 情 
况 '” ,但 HMM 和 神经 网 络 的 组 成 元 件 通常 分 开 训 练 。 在 参考 文献 [ 126 ] 中 描 
述 的 一 种 混合 模型 的 不 同类 型 中 ， 神 经 网 络 元 件 用 于 对 由 不 同 HMM 产 生 的 似 然 模 
式 的 分 类 。 相 反 地 ， 这 里 我 们 将 讨论 混合 模型 中 HMM 和 神经 网 络 元 件 不 可 分 的 情 “ 
况 。 在 这 些 结构 中 ， 神 经 网 络 元 件 用 于 重新 确定 参数 和 调整 HMM 元 件 。 两 种 元 件 
用 统一 的 算法 训练 ， 这 种 统一 算法 将 HMM 的 动态 规划 算法 和 神经 网 络 反 向 传播 算 
法 结合 在 一 起 。 在 我 们 详细 讨论 混合 模型 的 细节 之 前 ， 有 必要 用 第 2 章 及 图 模型 中 
叙述 的 一 般 概 率 观点 来 浏览 一 下 这 种 混合 处 理 方法 。 


一 般 的 混合 体系 

从 第 2 章 中 知道 ， 我 们 感 兴趣 的 基本 月 标 是 数据 的 概率 模型 4(8)，9 为 模型 参 
数 。 然 而 当 模 型 的 复杂 性 和 数据 之 间 不 匹配 时 ， 问 题 就 出 现 了 。 过 度 复 杂 的 模型 
导致 过 拟 合 ， 过 度 简单 的 模型 则 导致 欠 拟 合 。 

一 般 的 混合 建 模 方法 试图 同时 解决 这 两 个 问题 。 当 模型 太 复杂 时 ， 利 用 更 简 
单 的 参数 向 量 w 的 函数 Gftw)， 对 它 重新 参数 化 。 这 是 单 模型 的 情形 。 当 数据 太 复 
杂 时 ， 由 于 无 法 使 用 其 他 模型 类 , 解决 此 问题 仅 有 的 方法 是 以 多 个 M(B 模拟 数据 ， 
当 M(6) 覆 盖 数 据 空 间 的 不 同 区 域 时 ，6 离 散 或 连续 地 变化 。 央 此 ， 参 数 必 须 通过 
输入 函数 以 及 上 下 文 以 Gf(D) 的 形式 进行 调整 。 这 是 多 模型 的 情形 。 在 一 般 情形 
下 ,两 者 也 许 都 是 可 取 的 , FES fw, D)。 就 函数 1 可 以 属于 不 同 的 模型 类 而 言 ， 
这 种 处 理 方法 是 混合 方法 。 由 于 神经 网 络 的 通用 近似 性 质 ( 见 第 5 章 )， 一 种 自然 
的 处 理 方法 是 用 神经 网 络 计算 六 但 是 其 他 的 表示 方法 可 能 也 适用 。 由 于 这 使 模型 
重新 参数 化 容易 在 各 个 层次 进行 ， 因 此 这 种 处 理 方法 是 分 层 的 。 为 简单 起 见 ， 这 
里 我 们 只 限于 讨论 单 层 重新 参数 化 。 


千 在 分 子 生物 学 的 应 用 中 ， 神 经 网 络 可 以 令 人 信服 地 用 于 解释 各 种 测序 机 器 的 连续 输出 ， 但 这 不 是 我 们 在 这 
里 关注 的 问题 。 
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9.5 ” 单 模型 情形 


基本 思想 

在 一 般 的 HMM'Ph， 一 个 生成 或 转移 向 量 8 仅 仅 是 状态 ;的 函数 : 9=f(i)。 第 一 
个 基本 思想 是 : 为 了 计算 HMM 的 参数 ， 即 计算 函数 户 在 HMM 的 上 端 加 和 一 个 神 
经 网 络 。 神 经 网 络 是 通用 逼近 器 ， 因 此 可 以 表示 任意 的 f。 更 重要 的 一 点 或 许 是 ， 
参数 的 神经 网 络 表示 可 以 灵活 引 人 许 多 可 能 约束 。 为 了 简单 起 见 ， 我 们 仅仅 在 蛋 
白质 序列 分 析 问 题 中 讨论 生成 参数 ， 但 是 这 种 处 理 方法 也 可 以 直接 扩展 到 讨论 转 
移 参 数 和 所 有 其 他 字符 集中 。 

在 对 (7.33 ) 的 重新 参数 化 中 ， 我 们 可 以 考虑 每 一 个 HMM 生 成 参数 由 一 个 小 
的 神经 网 络 计 算得 到 ， 这 种 小 的 神经 网 络 的 一 个 输入 赋值 为 1 ( 偏 倚 )， 没 有 隐 层 ， 
有 20 个 softmax 型 输出 节点 (图 9-9A )。 输 人 与 输出 之 间 的 连接 赋 以 参数 wx。 这 
些 都 可 以 通过 任何 用 于 计算 HMM 参 数 的 复杂 神经 网 络 得 到 直接 推广 。 联 系 不 同 


















































输出 生成 分 布 
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输入 : HMM 状 态 
tA) 


输出 生成 分 布 
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CT 
输入 :HMM 状态 
(B) 


图 9-9 从 HMM 到 混合 HMMANN 


CA) 参考 文献 [41 ; 中 使 用 的 简单 HMMANN 混 合 结构 。 每 一 个 HMM 状 态 都 有 自己 的 NN。 这 里 的 NN 
非常 简单 ， 它 没有 隐 层 ， 只 有 1 个 softmax 型 节点 组 成 的 输出 层 ， 用 于 计算 状态 生成 或 转移 参数 。 为 简单 起 
见 ， 该 图 仅仅 表示 了 生成 参数 的 输出 。( B ) -个 HMIMANN 结 构 的 图 示 。 其 中 和 不 同 状态 《或 不 同 状态 群 ) 
有 关 的 NN 通 过 1 个 或 几 个 隐 层 相连 接 
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状态 的 神经 网 络 也 可 以 通过 1 个 或 多 个 共同 的 隐 层 相连 接 ， 而 全 面 的 网 络 构造 要 
根据 其 体 问题 而 定 ( 图 9~9B )。 然 而 ， 在 离散 字符 集 的 情形 下 ， 例 如 对 于 蛋白 质 
的 处 理 ， 符 一 状态 的 生成 分 布 是 多 项 分 布 ， 因 此 对 应 的 网 络 输出 应 该 由 MI 个 归 一 
化 指数 型 节点 组 成 。 


例 F 
作为 一 个 简单 的 例子 ， 考 虑 图 9-10 的 HMMI/NN 的 混合 构造 ， 这 种 构造 由 以 下 
部 分 组 成 : 

1. 输 入 层 : 每 个 节点 对 应 每 个 状态 i。 在 每 -一 时 刻 ， 除 了 一 个 赋值 为 1 的 节点 
外 ， 所 有 节点 赋值 都 为 9。 如 果 节 点 ;赋值 为 1， 旭 网 络 计算 ex， 即 状态 ;的 
生成 分 布 。 

2. 隐 层 : | 可 个 下 标 为 的 隐 节 点 ， 每 一 个 节点 的 激活 酌 数 为 户 〈 缺 省 是 
logistic ), tifa, (| HI <iAl). 

3. 输出 层 : II 个 softmax 型 节点 或 归 一 化 指数 节点 ， 带 有 下 标 X 及 偏 倚 by。 

4. EB a= Coy: BARBI RANE), B= (By: 隐 节 点 4 到 输出 节 
点 X 的 连接 )， 这 与 HMM 前 向 或 后 向 变量 椒 会 发 生 混淆 。 
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图 9-10 简单 混合 结构 {HMM 状态 的 图 示 ) 
每 一 状态 到 公共 隐 层 是 全 连接 的 。 隐 层 中 的 每 一 节点 全 连接 到 每 一 个 时 -化 指数 输出 节点 。 每 个 输出 
节点 计算 生成 概率 值 ex 
对 于 输 和 人 ;， 隐 层 中 第 # 个 节点 的 活性 由 下 式 给 定 
fh (a,b, ) (9.3) 
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在 输出 朗 中 对 应 的 输出 是 


e [Z Bah lauto )+bx] (94) 


exe 
x 5 e Bato tbs)+by] 


Y 


注 F 

关于 混合 HMMI/NN 结 构 ， 许 多 地 方 值得 注意 : 

。HMM 状 态 可 以 分 割 为 几 个 组 ， 不 同 的 组 带 有 不 同 的 网 络 。 在 蛋白 质 研 究 
中 ， 对 于 播 人 状态 和 主 状态 ， 或 者 对 于 蛋白 质 序列 中 对 应 于 不 同 区 域 (五 
KEK, RKE, RRES) 的 不 同 组 ， 可 以 用 不 同 的 神经 网 络 。 

* 利用 带 有 IHI 个 隐 节 点 的 小 隐居 ， 很 容易 减少 HMM 参 数 ， 其 中 ，|HI 比 N 和 
I4| 小 。 在 图 9-10 中 ， 带 有 | 如 | 个 隐 节 点 且 仅 考虑 主 状态 ,混合 HMMI/NN 结 
构 的 参数 个 数 为 IH| ( N+H4|)， 而 对 应 的 简单 HMM 中 参数 个 数 为 NIAI。 对 于 

蛋白 质 模型 ， 混合 HMM/NN 结 构 能 粗略 地 导出 需要 |HIN 个 参数 ， 而 对 应 的 
简单 HMM 有 20N 个 参数 。|HI=|4| 与 (7.33 ) 大 致 相当 。 

。 参数 数目 可 以 通过 改变 隐 节 点 的 数目 来 进行 合适 的 调整 ， 以 适应 各 种 训练 
集 的 大 小 。 在 数据 库 的 大 小 经 常 变动 的 环境 下 ， 这 一 点 是 有 用 的 ， 上 月 前 它 
在 分 子 生物 学 中 的 应 用 正 是 如 此 。 

整个 神经 网 络 技术 ， 如 径 向 基 函 数 、 多 隆 层 、 稀 朴 连 遂 性 、 权 值 共享 、 高 
斯 先 验 分 布 以 及 超 参数 等 ， 都 可 以 用 于 网 络 构建 。 各 种 初始 化 和 网 络 结构 
可 以 以 灵活 的 方式 实现 。 通 过 将 不 同 的 隐 节 点 数 分 配 到 不 同 的 生成 或 转移 
子 集 ， 必 要 时 可 以 很 容易 地 在 模型 中 支持 特定 的 通道 类 别 。 在 图 7-2 的 
HMM 中 ， 在 任何 学 习 之 前 ， 我 们 通常 必须 使 模型 更 倾 应 于 主 状态 而 非 播 
人 人 状态。 利用 权 值 共享 和 其 他 类 型 的 长 程 相关 性 ， 也 容易 将 可 能 相似 的 蛋 
白质 区 域 连接 在 一 起 。 通 过 合理 设置 输出 偏 倚 的 值 ， 模 型 可 以 初始 化 为 训 
练 序列 的 平均 组 成 或 者 任意 其 他 有 用 的 分 布 。 

。 容易 加 入 蔡 代 和 抵 阵 形式 的 先 验 信息 。 替 代 和 矩阵 ( 见 参考 文献 [8 ]、 第 1 音 
和 第 10 章 ) 可 以 根据 数据 库 计 算得 到 ， 它 本 质 上 得 到 了 一 个 背景 概率 矩阵 
P=(pxn)， 其 中 pxy 是 经 过 一 定 的 进化 时 间 ，X 将 转变 为 ?的 概率 。 和 矩阵 P 可 以 
通过 生成 神经 网 络 中 的 一 个 线性 变换 加 以 实现 。 

* 虽然 带 有 连续 生成 分 布 的 HMM 的 内 容 已 经 超出 本 书 的 讨论 范围 ， 但 这 类 
HMM 的 讨论 也 可 以 并 入 HMMI/NN 讨 论 框 架 。 输 出 生成 分 布 可 以 用 样本 、 
矩 、 混 合 系数 等 形式 表示 。 在 经 典 的 高 斯 型 混合 情形 下 ， 期 望 、 协 方差 和 
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混合 系数 可 以 通过 神经 网 络 计算 得 到 。 类 似 地 ， 附 加 的 HMM 参 数 ， 例 如 
用 于 模拟 在 任意 给 定 状态 下 的 驻 留 持续 时 间 的 指数 参数 可 以 通过 一 个 神经 
网 络 计 算得 到 。 


简单 HMMI/NN 结 构 的 表示 

考虑 上 面 (图 9-10 ) 所 描述 的 特殊 HMM/NN 结 构 ， 其 HMM 状 态 的 一 个 子 集 
完全 连接 到 |HI 个 隐 节 点 ， 并 且 这 些 隐 节 点 完全 与 4| 个 softmax 输 出 节点 连接 。 由 
于 对 任意 的 HMM 状 态 !、 作 意 的 偏 全 向 量 包 以 及 任意 的 连接 向 量 wxi， 存 在 一 个 新 
的 连接 向 量 @;;， 这 个 新 向 量 可 生成 相同 的 0 偏 倚 的 隐 季 点 输出 向 量 。 在 上 述 意 义 
上 ， 隐 节点 偏 傈 实际 上 不 是 必要 的 。 这 点 在 一 般 情 况 下 不 成 立 ， 例 如 一 日 存在 多 
隐 层 或 输入 节点 到 隐 凑 不 是 完全 内 部 连接 ， 这 点 就 不 止 确 了 。 从 一 般 性 出 发 ,我 
们 保留 了 偏 倚 。 而 且 即 使 不 能 扩大 可 表示 的 空间 ， 偏 倚 仍 可 以 使 学 习 过 程 更 方便 。 
对 于 激活 函数 ， 类 似 的 性 质 在 一 般 情 况 下 也 成 立 。 对 于 一 个 输入 层 与 一 个 单 隐 层 
完全 连接 的 情况 ， 相 同 的 隐 层 输出 可 以 通过 调整 权重 值 由 不 同 的 激活 函数 来 实 
现 。 


























一 个 自然 产生 的 问题 是 : 如何 表示 隐 层 ”和 这 种 方式 下 可 以 实现 的 生成 分 布 
空间 是 什么 ? 网络 中 每 一 个 HMM 的 状态 可 以 通过 超 立 方 体 (hypercube ) [-1,1]!"! 
中 的 一 个 点 来 表示 。 点 的 坐标 是 | HI 个 隐 节 点 的 输出 值 。 通 过 改变 到 隐 节 点 的 连 
接 ， 一 个 HMM 状 态 可 以 在 超 立 方 体 中 占据 任意 的 位 置 。 因 此 ， 可 以 实现 的 生成 
分 布 空间 完全 由 从 隐 层 到 输出 层 的 连接 确定 。 如 果 这 些 连 接 保持 固定 不 变 ， 则 
个 HMM 状 态 可 以 在 超 立 方 体 中 选择 一 个 相应 的 最 优点 ， 在 那 点 上 ， 由 神经 网 络 
权重 值 生成 的 生成 分 布 最 接近 于 真实 的 最 优 分 布 。 在 在 线 学 习 的 过 程 中 ， 所 有 的 
参数 被 同时 学 习 ， 因 此 可 以 考虑 其 他 影响 因素 。 

为 了 进一步 理解 可 实现 的 分 布 空 间 ， 需 要 考虑 从 隐 层 到 输出 节点 的 转化 。 为 

念 阐述 上 方便 起 见 ， 我 们 引入 一 个 附加 的 隐 节 点 ， 它 的 赋值 总 为 1， 标 号 为 0， 
用 以 表示 形式 为 bx 有 .的 输出 偏 侍 。 如 果 在 这 个 扩展 的 隐 层 中 轮流 将 每 个 陷 节 点 
的 值 设置 为 1 ， 我 们 在 输出 层 m*=(px)(0 反 庆生 | 如 ) 中 得 到 | El+1 个 不 同 的 生成 分 布 ， 
其 中 
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REF BERA (Lti Hha) 的 隐 层 中 一 般 的 输出 模式 。 利 用 (9.4) 和 (9.5 )， 
输出 层 的 生成 分 布 是 


(9.5) 
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_p J 
exon Thel Ena] (96) 
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ExT 


化 简 后 得 到 


ex= 一 Je x (9.7) 
Dvesl Teer | 


9 此， 所 有 通过 神经 网 络 实现 的 生成 分 布 有 (9.7 ) 的 形式 ， 而 且 生 成 分 布 可 以 看 
做 与 每 一 隐 节 点 相 联 系 的 | HI+1 个 基本 分 布 P 的 组 合 。 一 般 地 ， 这 种 组 合 与 P' 的 是 
线性 组 合 不 同 。 这 种 组 合 由 三 步 操作 组 成 ; (1) 对 严 的 每 个 元 件 取 必 次 方 ， 得 到 
的 个 隐 节 点 的 输出 ;( 2 ) 相应 向 量 的 所 有 组 成 元 件 相 乘 ;( 3 ) 归 一 化 。 在 这 种 
形式 下 ,混合 HMM/NN 处 理 方 法 与 Dirichlet 分 布 混合 的 方法 不 同 。 

















学 习 

HMMVNN 结 构 可 以 用 ML 或 MAP 佑 计 进行 优化 。 与 HMM 不 同 ， 对 于 混 
HMMVNN 结 构 ，EM 算 法 的 M 步 一 般 不 能 解析 地 实现 。 然 而 ， 我 们 仍 可 以 利 有 
些 基于 链 式 法 则 的 梯度 下 降 法 计算 似 然 函 数 对 HMM 参 数 的 偏 导 数 ， 以 及 计 
HMM 参 数 对 神经 网 络 参 数 的 偏 导数 。 计 算 过 程 中 ， 容 易 加 入 先 验 概率 项 的 求 
结果 。 通 过 只 利用 最 有 可 能 的 路 径 ， 还 可 以 使 用 Viterbi 学 习 算法 。 学 习 方程 的 
导 留 做 练习 ， 这 些 也 可 以 在 参考 文献 [40 ] 中 找到 。 在 最 后 得 到 的 学 习 方 程 
HMM 动 态 规划 和 神经 网 络 反 向 传播 的 成 分 紧密 地 联系 在 一 起 。 这 些 算法 也 可 
看 做 GEM (广义 最 大 似 然 估计 ) 算法 。 


9.5.1 多 模型 情形 


上 上面 描 述 的 混合 HMMI/NN 结 构 处 埋 了 HMM 的 第 一 个 局 限 性 : 模型 结构 利 复 
杂 庶 的 控制 。 不 管 神经 网 络 元 件 如 何 复杂 ， 基 终 模型 仅仅 是 一 个 单 HMM。 因 此 
HMM 的 第 二 个 局 限 性 ， 即 长 程 相关 性 仍然 没有 得 到 解决 。 这 个 难题 不 能 简单 地 
通过 采用 高 阶 HMM 来 克服 。 最 常见 的 障碍 是 高 阶 HMM 在 计算 上 难以 处 理 。 一 种 
可 能 的 处 理 方 法 是 通过 对 每 个 相关 上 下 文 关系 引入 新 状态 ,设法 建立 带 有 可 变 记 
忆 长 度 的 马尔 可 二 模型 。 这 蓝 求 设计 -种 系统 化 的 方法 ， 这 种 方法 直接 从 数据 中 
确定 可 变 长 度 的 上 下 文 关系 。 此 外 ， 我 们 必须 希望 这 种 处 理 保持 小 的 相关 上 下 文 
的 数目 。 依 照 此 思路 ， 参 考 文献 [ 448 ] 给 出 了 一 个 有 趣 的 处 理 方法 。 这 种 方法 
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用 直到 10 个 字符 左右 的 可 变 记忆 长 度 马 尔 可 夫 过 程 ， 建 立 了 一 个 处 理 英文 的 模 
型 。 

为 了 不 求助 于 不 同 的 模型 类 来 处 理 第 二 个 局 限 性 ， 我 们 必须 考虑 更 加 一 般 的 
HMMI/NN 泥 合 结构 ， 其 中 的 基本 统计 模型 是 一 系列 HMM。 为 了 理解 这 一 结构 ， 再 
- -次 考虑 在 第 8 章 的 最 后 提 到 的 X-Y/X' -Y 问题 。 捕 获 这 种 相关 性 要 求 在 相应 位 置 
上 存在 可 法 生成 向 量 和 连接 机 制 。 在 简单 的 情况 下 ， 必 须 用 四 个 不 赔 的 生成 向 量 ， 
Ble, e e 和 ej 。 这 些 向 量 中 的 每 一 个 必须 为 字符 X，Y，X' 和 Y' 分 配 高 的 概率 
值 。 更 重要 的 是 ， 必 须 有 一 些 具有 记忆 能 力 的 向 量 ， 它 们 有 一 种 连接 点 i 条 /的 分 布 
的 机 制 ， 使 得 e: 和 ej 用 于 序列 O， 而 e:' Me’ 用 于 序列 O' 。e 和 er (或 er 和 e ) 的 结 
合 应 该 很 少 或 不 允许 ， 除 非 数据 要 求 如 此 。 因 此 ，e 和 ej 必定 属于 第 一 个 HBMM， 而 
e; Me; 必定 属于 第 二 个 HMM， 而 HMM 之 同 相互 转移 的 概率 是 输入 序列 的 函数 。 
另外 一 种 方法 是 必须 使 用 一 个 带 有 可 变 生成 分 布 的 单 MM ， 用 一 些 输入 来 调节 
Es 

然而 ,在 以 上 两 种 情况 下 ， 我 们 都 认为 给 定 状 态 的 生成 分 布 不 仅 依赖 于 它 自 
已 的 状态 ， 还 依赖 于 一 种 附加 的 信息 流 7， 此 时 有 8=fti, D AE, -AEE 
HMMVNN 混 合 结构 中 ， 这 个 更 复杂 的 函数 了 可 以 由 神经 网 络 计算 得 到 。 依 赖 于 具 
体 问题 ， 输 入 了 可 以 假设 成 不 同 的 形式 ， 可 以 称 为 “上 下 文 ”或 “潜在 ”的 变量 。 
在 可 行 的 时 候 ，7 甚至 可 以 等 同 于 实时 观察 序列 O。 然 而 ， 其 他 输入 取 不 同 的 字符 
集 是 可 能 的 。 在 蛋白 质 建 模 中 ， 一 个 明显 的 候选 方案 将 是 蛋白 质 二 级 结构 (R 
旋 、/ 折 登 和 无 规 卷 曙 )。 一 般 地 ，7 也 可 以 是 任何 其 他 数组 ， 代 表 调节 HMM 的 潜 
在 变量 (latent variable )。!2"4; 我 们 简要 地 考察 两 个 例子 。 


HMM 专 家 模型 的 混合 
第 一 种 可 能 的 处 理 方法 是 考虑 模型 MXM， 此 模型 是 x 个 简单 的 隐 马 氏 模型 M1,…， 
M, 的 混合 分 布 。( 2.23 ) 对 任意 的 序列 O， 有 



























































P(OIM= JAPIM) (9.8) 
i=] 





其 中 混合 系数 和 满足. 宕 0 和 了 ,Ni=1。 在 生成 模式 中 ， 序 列 通过 每 一 个 独立 的 
HMM 随 机 产生 ， 选 中 Mt 的 概率 为 4。 这 样 一 种 系统 可 以 看 做 一 个 较 大 的 单 HMML， 
它 的 起 始 状态 与 BMM 中 的 每 一 个 Mi 以 转移 概率 和 进行 连接 ( 图 8-5 )。 正 如 我 们 
在 第 8 章 中 所 见 到 的 ， 为 了 对 球 蛋 白 序列 进行 非 监督 分 类 ， 参 考 文献 [ 334 ] 中 使 
用 了 这 类 模型 。 注 意 每 一 个 子 模型 的 各 个 参数 可 以 通过 神经 网 络 计算 得 到 一 个 
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HMM/NN 混 合 结构 。 由 于 HMM 专 家 模型 构成 一 个 更 大 的 单 HMM， 因 此 相应 的 
混合 结构 等 同 于 9.2 节 中 的 模型 。HMM 专 家 模型 的 独 有 特性 是 : 此 时 的 状态 已 经 
被 复制 和 分 群 ， 以 便 构建 不 同 的 子 模型 。 下 一 个 步骤 是 得 到 可 变 的 混合 系数 ， 这 
些 混合 系数 依赖 于 输入 序列 或 其 他 一 些 相关 信息 。 这 些 混合 系数 可 以 计算 出 来 作 
为 神经 网 络 的 softmax 节 点 输出 ， 就 像 参考 文献 [ 277 ] 中 的 混合 专家 模型 构建 那 
样 。 


生成 专家 模型 的 混合 
考虑 到 生成 参数 ex 应 该 也 是 附加 输入 /的 函数 ， 另 一 种 处 理 方法 是 调节 一 个 单 
HMM。 因 此 有 ex=P(i, X, 了 )。 不 失 一 般 性 ， 我 们 假设 P 是 n 个 生成 专家 模型 P 的 混合 : 























PG, X, D= Di, X. DEG X, D (99) 
在 许多 有 意思 的 情形 下 ，% 独 立 于 X， 结 昌 有 字符 集 上 的 概率 向 量 方程 
PG, D= DA, i, DP, Gi, D (9.10) 
j=l 


如 果 n=1 且 PGi, D=P(GD， 则 回 色 了 一 个 单 HMM。 通 过 进一步 假设 4 不 依赖 于 ;， 以 
RPG, X, 站 不 直接 依赖 于 [， 就 导出 了 一 个 重要 的 特殊 情形 ， 即 


Pu, D= DAP, (9.11) 
dsl 





RUBE Be} — IMM INNGE A 24 Ho UE HET AURERE, PAER- 
中 描绘 的 结构 。 

分 布 P 由 神经 网 络 计算 得 到 ,混合 系数 由 另 一 条 神经 网 络 途径 计算 得 到 。 自 
然 ， 有 可 能 发 生 许多 变化 ; 而 旦 在 最 一 般 的 情形 下 ， 切 换 网 络 可 以 取决 于 状态 i， 
分 布 P 取 决 于 输入 /。 在 蛋白 质 建 模 中 ， 如 果 切 换 网 络 依赖 于 状态 ;， 生 成 专家 模 
型 就 对 应 于 不 同 的 区 域 类 型 ， 如 嘛 水 性 区 域 系 水 性 区 域 ， 而 不 是 对 应 于 蛋白 质 
家 族 中 的 不 同 子 类 。 
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对 于 所 有 给 定 参数 、 一 个 给 定 的 观察 序列 和 输入 向 量 1， 一 般 的 HMMI/NN 混 
合 结构 简化 为 一 个 单 HMM。- -个 序列 关于 此 HMM 的 似 然 度 或 者 其 他 一 些 序列 拟 
全 水平， 都 可 以 通过 动态 规划 计算 获得 。 只 要 似 然 度 对 模型 参数 是 可 微 的 ， 就 可 
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以 通过 神经 网 络 ， 包 括 依赖 于 7 的 那 部 分 网 络 (例如 图 9-11 中 的 控制 网 络 部 分 ) 
反 向 传播 梯度 。 做 些微 小 的 调整 ， 我 们 就 将 导出 学 习 算法 ， 这 种 学 习 算法 类 似 于 
上 面 描述 过 的 那些 算法 。 这 种 类 型 的 学 习 算法 支持 图 9-11 所 示 的 生成 专家 模型 系 
统 内 部 的 协同 。 在 道 常 的 专家 混合 体系 结构 中 ， 在 各 专家 系统 之 间 引 入 一 定 水 平 
的 竞争 度 也 许 有 用 ， 由 此 可 使 每 专家 系统 专门 分 析 不 同 的 序列 子 类 。!271 









































输出 生成 分 布 
生成 专家 系统 [ Co 
隐 RB CI 控制 网 络 

















Co 
输入 : HMM 状 态 MA: 外 部 或 上 下 文 信息 
图 9-11 一 般 HMM/NN 的 结构 图 示 
其 中 的 HMM 和 参数 由 一 个 任意 复杂 度 的 神经 网 络 计算 ， 此 神经 网 络 操作 状态 信息 ， 也 操作 输入 或 上 下 
文 信息 。 输 入 或 上 下 文 信息 通过 诸如 切换 和 混合 不 同 参数 的 专家 系统 来 调整 HMM 参 数 。 为 简单 起 见 ， 图 


中 仅 表示 了 有 三 个 生成 专家 系统 和 一 个 单 隐 层 的 生成 参数 。 从 HMM 状 态 到 拧 制 网 络 的 连接 ， 以 及 从 输入 
到 隐 层 的 连接 也 是 可 能 的 。 


当 输 入 空间 已 经 选 定 而 相关 输入 的 值 未 知 的 时 候 ， 利 用 贝 叶 斯 反 演 ， 可 以 
通过 学 习 得 到 输入 的 值 和 模型 参数 。 考 虑 有 一 个 输入 上 和 每 个 观察 序列 D 相 关 ， 而 
日 混合 模型 参数 为 w 的 情形 ， 我 们 可 以 计算 P(OI w)}。 将 P(D 和 PGw) 分 别 定义 为 关 
于 /和 w 的 先 验 概率 ， 则 有 








Pao, w= PL» PUL) (9.12) 
P(Ow) 
其 中 
P(olw)= f P(ol I, w)P(D dI (9.13) 


给 定数 据 后 ， 利 用 贝 叶 斯 定理 ， 模型 参数 的 概率 可 以 由 下 式 计算 得 到 
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pope PLP) Po) [Hor(ow) ee (9.14) 
P(D) ED 


此 时 我 们 假设 各 观测 值 之 问 是 独立 的 。 这 些 参 数 可 以 通过 -logP(w|D) 的 梯度 下 降 
法 进行 优化 。 其 主要 的 步骤 是 估计 似 然 度 P(Ohw) 及 其 关于 w 的 导数 ， 这 些 可 以 通 
过 蒙特 卡 罗 采 样 实现 。 潜 在 变量 /的 分 布 可 以 由 (9.12) 计算 。 参 考 文献 [374 ] 
给 出 这 种 学 习 方 法 的 一 个 例子 。 用 于 和 蛋白质 建 模 的 密度 网 络 ( density network ) 
在 本 质 上 可 以 视 为 HMMVNN 混 合 结构 的 一 种 特殊 情形 ， 其 中 的 每 一 牛 成 向 量 都 可 
以 视 为 对 低 维 空间 上 真实 的 “ 隐 ” 输 入 17 ( [和 w 具 有 独立 的 高 斯 先 验 分 布 ) 进行 的 
一 种 softmax 变 换 。 输 入 7 按照 序列 的 盟 数 调节 生成 向 量 ， 进 而 调节 那个 基本 的 
HMM., 


9.5.2 仿真 结果 


现在 我 们 利用 免疫 球 蛋白 家 族 研究 的 例子 ，[4: 考察 HMMVNN 单 模型 混合 结 
构 原 则 的 简单 应 用 。 免 疫 球 蛋白 或 抗体 是 由 B 细 胞 产生 的 蛋白 质 。 抗 体能 特异 性 地 
结合 外 来 抗原 ， 从 而 使 抗原 被 中 和 或 被 其 他 效应 细胞 破坏 。 各 类 木 同 的 免疫 球 蛋 
白 由 它 的 轻 链 和 重 链 对 确定 ， 轻 链 和 重 链 主 要 通过 二 硫 键 结合 在 一 起 。 每 条 轻 链 
和 重 链 分 子 都 包含 一 个 可 变 区 (V) 和 一 个 (对 于 轻 链 ) 或 多 个 (对 于 重 链 ) 不 变 
区 《C ) (图 9-12 )。V 区 在 各 种 免疫 球 蛋 白 之 间 是 不 同 的 ， 它 可 以 识别 特异 抗原 。 
V 区 有 大 约 1/3 的 氨基 酸 形成 超 可 变 位 点 ， 这 些 位 点 负责 消 椎 动物 免疫 应 答 的 多 样 
性 。 这 里 所 用 的 数据 库 与 参考 文献 [ 41 ] 中 所 用 的 数据 库 相 同 ， 该 数据 库 由 人 和 
小 局 的 重 链 免 疫 球 蛋 白 的 V 区 序列 组 成 ， 它 们 都 取 自 PIR 数 据 库 。 所 用 数据 有 224 
条 序列 ， 最 小 长 度 是 20， 最 大 长 度 是 254， 平 均 长 度 N 为 117。 
免疫 球 蛋 白 的 V 区 首先 用 单 HMM 建 模 , “1 它 总 共 含 有 52N+23=6 LOT ET i 
节 的 参数 ， 这 一 模型 类 似 于 图 7-3 中 的 一 个 。 这 里 我 们 考虑 一个 具有 以 下 特征 的 
混合 HMM/NN 结 构 。 其 基本 模型 是 一 个 具有 图 7-3 的 结构 的 HMM。 所 有 主 状态 生 
通 
的 





















































成 通过 带 有 2 个 隐 节 点 的 公共 神经 网 络 计算 得 到 。 同 样 地 ， 所 有 插 人 状态 生成 
过 带 有 1 个 隐 和 节点 的 公共 神经 网 络 计算 得 到 。 每 个 状态 转移 分 布 通 过 -个 不 同 
softmax 网 络 计算 获得 。 忽 咯 边 界 效 应 ， 这 个 HMM/NN 结 构 的 参数 总 个 数 为 1 507: 
其 中 有 (117x 3 x3) =1 053 个 转移 参数 ，( 117 x 3+3+3 x 20440) =454 个 生成 参 
数 ， 其 中 包括 偏 倚 。 这 个 体系 结构 只 以 演示 为 目的 ， 没 有 进行 优化 。 我 们 估计 它 
的 参数 数目 还 可 以 进一步 减少 。 

然后 利用 梯度 下 降 法 和 相应 的 Viterbi 学 习 算法 对 这 一 混合 结构 进行 在 线 训练 。 
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Erez 
Base 
图 9-12 PASS ARE (L) MEREZA (H) 组 成 的 典型 人 类 抗体 分 了 于 的 结构 模型 图 


图 中 标明 了 链 间 和 链 内 的 二 硫 键 (S )。 半 胱 氨 酸 残 基 由 二 硫 刍 连接。 对 应 于 不 同 区 域 ， 抗 穆 绩 合 的 两 
个 相同 的 活性 位 点 定位 在 抗体 分 子 的 双 臂 上。 


训练 集 由 150 个 序列 的 随机 子 集 组 成 ， 与 用 于 简单 HMM 实 验 的 训练 集 一 致 。 所 有 从 
输入 到 隐 层 的 权重 值 都 用 独立 的 高 斯 分 布 初始 化 ， 这 一 高 斯 分 布 数学 期 望 为 0%， 标 
准 差 为 1!。 所 有 从 隐 层 到 输出 层 的 权重 值 都 初始 化 为 1。 这 样 在 所 有 生成 状态 中 就 导 
出 了 一 个 均匀 的 生成 概率 分 布 。 9 注意， 如 果 所 有 权重 值 都 初始 化 为 1， 包 括 那些 从 
输入 层 到 隐 层 的 权重 值 ， 则 隐 节 点 不 能 与 其 他 节点 区 分 。 移 出 插入 或 删除 状态 的 转 
换 概率 一 率 初始 化 为 3。 然 而 ， 我 们 沿 主线 引入 一 个 小 偏 傈 ， 以 非 对 称 Dirichlet 先 
验 分 布 的 形式 支持 从 主 状态 到 主 状态 的 转移 。 这 一 先 验 概率 等 价 于 在 目标 函数 中 引 
人 一 个 正则 项 ， 这 里 的 目标 函数 等 于 主线 转换 路 径 值 的 对 数 。 将 调整 常数 设置 为 
0.01， 学 习 率 设置 为 0.1。 一 般 地 ， 要 达到 平衡 ， 经 过 10 步 训练 循环 已 经 足够 了 。 
在 图 9-13 中 ， 我 们 演示 了 20 条 随机 地 选 自 训练 集 和 校 验 集 的 免疫 球 蛋白 序列 
的 多 重 序列 比 对 的 结果 。 校 验 集 由 剩余 的 74 条 序列 组 成 。 这 个 比 对 结果 在 5 到 10 个 
训练 周期 之 间 非 常 稳定 。 它 对 应 于 用 Viterbi 学 习 算法 训练 了 10 个 周期 的 模型 。 这 









































图 就 Viterbi 学 习 算 法 来 说 ,这 样 的 处 理 ， 例 如 平均 组 分 初始 化 处 理 ， 可 能 优 于 非 均匀 初始 化 处 理 ， 因 为 非 均 
义 初 始 化 会 在 Viterbi 路 径 中 引起 变形 。 
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图 9-13 从 训练 集 和 校 验 集中 随机 选取 20 个 免疫 球 蛋 白 的 多 重 序列 比 对 结果 





序列 : F37262、GIHUDW 、A36194、A31485、D33548，S11239、127888 、A33989 和 A30502。 比 对 
由 一 个 混合 HMMNN 结 构 经 过 10 个 周期 的 训练 得 到 ,此 泥 合 HMM/NN 结 构 对 于 主 状态 生成 带 有 2 个 聊 节 点 ， 
对 于 插 人 状态 生成 带 有 1 个 隐 节点 。 其 中 小 写字 母 代表 插 人 状态 的 输出 。 注 意 在 模型 中 ，-- 些 序列 中 的 信 
号 肽 由 于 在 第 一 个 插 人 状态 中 反复 过 渡 而 被 捕获 。 


一 比 对 与 先前 用 简单 HMM 导 出 的 多 重 序列 比 对 方法 类 似 ， 只 是 现在 方法 的 参数 数 
目 为 先前 方法 的 4 倍 多。 这 种 算法 已 经 可 以 发 现 大 部 分 显著 的 家 族 特征 。 最 重要 的 
是 ， 接 近 于 区 域 开始 和 结尾 部 分 的 半 胱 氨 酸 残 基 〈C ) ( 多 重 序列 比 对 中 的 位 点 10 
和 100 ) 对 准 得 非常 完美 ， 这 些 残 基 是 形成 结合 两 链 的 二 硫 键 的 原因 。 仅 有 的 例外 
是 最 后 一 个 序列 (PH0097 )， 在 这 个 序列 的 末端 部 分 有 一 个 丝氨酸 残 基 (S$ )。 这 
种 情况 是 罕见 的 ， 被 认为 是 该 位 点 保守 性 的 例外 。 数 据 集中 的 一 部 分 序列 在 N 端 
出 现 一 个 信号 隐 序 列 ( 见 6.4 节 )。 在 训练 之 前 ， 我 们 不 去 掉 它 们 。 通 过 把 信号 肽 
处 理 为 初始 重复 插入 ， 模 型 可 以 探测 和 适应 它们 ， 正 如 从 三 个 序列 ( S09711 、 
A36194、S11239 ) 比 对 中 看 到 的 那样 。 这 个 多 重 序列 比 对 算法 也 有 一 些 孤 立 的 问 
题 ,这 些 阿 题 和 过 分 使 用 间 腺 和 插入 状态 有 部 分 关系 。 有 趣 的 是 ， 这 些 情况 在 超 
可 变 区 域 最 明显 ， 例 如 在 位 置 30 至 35， 以 及 50 至 55 之 闻 的 区 域 。 这 些 问题 应 该 通 
过 更 精心 地 选择 混合 结构 和 【或 ) 止 则 化 加 以 消除 。 在 这 种 情况 下 的 比 对 ， 用 梯 
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度 下 降 法 和 (或 ) 多 达 4 个 以 上 的 隐 节 点 似乎 也 没 能 改善 性 能 。 

在 图 9-14 中 ， 我 们 给 出 了 与 每 个 主 状态 相关 联 的 2 个 隐 节 点 的 输出 图 。 对 于 
大 多 数 状态 ， 至 少 1 个 输出 是 饱和 的 。 组 成 二 硫 键 的 半 胱 氨 酸 残 基 ( 主 状态 24 和 
100 )， 其 2 个 节点 的 输出 部 是 饱和 的 ， 而 且 在 相同 的 区 域 《-1,+1) 中 。 接 近 中 心 
COO) 的 点 对 应 仅仅 由 偏 倚 确定 的 生成 分 布 。 
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图 9-14 与 主 状态 生成 相关 的 2 个 陷 节点 的 输出 值 
‘SAARI (C) 相关 的 2 个 输出 值 位 于 左上 角 ， 几 乎 与 坐标 {-1,+1) 重合 。 


9.5.3 总 结 


我 们 已 经 描述 了 一 大 类 混合 HMM/NN 结 构 。 这 些 结构 在 两 个 方面 改进 了 单 
HMM 的 性 能 : 第 一 个 方面 ， 神 经 网 络 的 重新 参数 化 为 控制 模型 复杂 度 、 引 人 先 
验 值 、 建 立 利用 输入 调节 最 终 模型 的 机 制 提供 了 -个 灵活 的 工具 ; 第 二 个 方面 ， 
利用 多 个 HMM 建 模 可 以 覆盖 一 类 更 大 的 分 布 集 ， 表达 非 平 稳 性 和 相关 性 等 单 
HMM 无 法 处 理 的 问题 。 类 似 的 思想 在 参考 文献 [ 58 ] 中 用 输 和 人 一 输出 HMM 
(IOHMM ) 的 概念 加 以 引 人 。HMMI/NN 处 理 方法 是 对 已 有 的 在 序列 模型 中 合并 先 
验 信息 的 技术 的 补充 ， 而 不 是 其 替代 物 。 

为 成 功 地 将 混合 HMM/NN 结 构 应 用 在 实际 问题 中 ， 需 要 处 理 的 两 个 重要 问 
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题 是 神经 网 络 结构 的 设计 和 外 部 输 人 或 上 下 文 信息 的 选择 。 这 些 依赖 于 所 处 理 的 
问题 ， 没 有 通用 的 处 理 方法 。 我 们 已 经 描述 了 一 些 构架 的 例子 ， 如 利用 混合 的 思 
想 设计 神经 网 络 元 件 。 也 可 以 选择 不 同 的 输入， 例如 选择 上 下 文 信息 、 不 同 字符 
集 的 序列 或 连续 参数 变 时。![?741 

这 一 部 分 所 描述 的 方法 不 只 限于 HMM， 这些 方法 可 以 应 用 到 任何 概率 模型 。 
其 基本 思想 是 利用 神经 网 络 〈 或 其 他 任何 灵活 的 重新 参数 化 方法 ) 计算 或 调节 模 
型 参数 。 几 个 混合 结构 的 例子 可 以 在 参考 文献 中 找到 ( 如 参考 文献 [395 ] )。 事 
实 上 ， 第 5 章 中 的 神经 网 络 结构 可 以 看 做 混合 构架 。 在 标准 回归 的 情况 下 ， 高 斯 
模型 用 于 输 人 空间 的 每 一 个 点 。 每 个 高 斯 模型 由 它 的 均值 参数 化 。 标 准 的 神经 网 
络 构架 在 每 一 点 简单 地 计算 这 个 均值 。 虽 然 混合 建 模 的 原理 并 不 新 颖 ， 但 是 通过 
把 这 一 原理 系统 地 应 用 在 HMM 中 ， 我 们 建立 了 新 的 一 类 模型 。 在 其 他 模型 类 中 
这 一 原理 还 没有 被 系统 地 应 用 ， 例 如 在 进化 概率 模型 《第 10 章 ) 和 随机 文法 模型 
(第 11 章 ) 中 。 在 下 一 节 中 ， 我 们 将 遵循 参考 文献 [ 37 ] 的 思路 并 将 类 似 的 技术 
应 用 到 一 大 类 概率 模型 中 ， 即 将 其 应 用 到 BIOHMM 和 预测 蛋白 质 二 级 结构 的 问题 
中 。 



































用 于 蛋白 质 二 级 结构 预测 的 双向 反馈 神经 网 络 





蛋白 质 二 级 结构 预测 ( 也 见 6.3 节 ) 可 以 表示 为 学 习 序 列 同步 转换 的 问题 ， 这 
是 从 氨基 酸 字符 集中 的 字符 串 到 结构 类 别 字符 集中 的 字符 串 之 间 的 转换 。 因 为 生 
物 序列 是 一 种 空间 序列 ， 而 不 是 时 间 序列 ， 我 们 已 经 看 到 BIOHMM 是 一 类 很 有 意 
思 的 处 理 这 一 问题 的 新 的 图 模型 。 特 别 地 ，BIOHMM 给 出 了 一 种 较 好 的 方法 ， 替 
代 基于 固定 宽度 输入 窗 的 方法 。 这 些 模型 的 表达 能 力 可 以 使 它们 捕获 到 远程 信息 ， 
这 些 信息 以 上 下 文 知 识 的 形式 储藏 在 隐 状 态 变量 中 。 依 靠 这 种 方式 ， 这 些 模型 可 
以 潜在 地 克服 前 馈 网 络 的 主要 不 足 之 处 ， 即 随 着 窗口 的 增 大 ， 有 关 参 数 的 数目 呈 
线性 增加 。 由 于 其 稳定 性 ( 即 参 数 不 随 时 间 变 化 ) 而 造成 的 隐 仿 的 权重 共享 ， 
此 直觉 上 看 ， 这 些 模型 的 参数 数目 应 该 很 少 。 

我 们 已 经 将 BIOHMM 直 接应 用 到 蛋白 质 二 级 结构 预测 中 ， 并 有 日 取得 了 一 些 成 
功 。 255] 然而 作为 图 模型 ，BIOHMM 含 有 无 向 环 ， 此 要 求 使 用 计算 量 很 大 的 信 
念 传播 (evidence-propagation ) 算法 〈 交叉 树 算法 257] )， 而 不 是 无 环 图 中 (如 
HMM ) 使 用 的 简单 的 Pear 算法 ( 见 附录 C )。 因 此 为 了 加 快 算法 的 速度 ， 我 们 可 
以 使 用 前 面 章 节 中 提 到 的 技术 ， 利 用 前 馈 和 反馈 神经 网 络 技术 ， 以 此 重新 参数 化 
模型 。 
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9.6.1 双向 反馈 神经 网 络 


以 绽 义 蛋白 质 序列 中 的 一 个 位 置 ， 总 的 模型 可 以 视 为 一 个 概率 模型 。 对 于 每 
一 个 r， 模 型 输出 一 个 向 量 O=(o ,02,, 03), Ho, 20M 了 ,ou Alo Ko, fe 
级 结构 类 的 素 属 概率 。 输 出 预测 有 如 下 形式 : 


O=nF,, B,, 1) (9.15) 





它 依赖 于 前 向 (上游 ) 信息 F,， 后 向 (下游) BB, MEENA A. E 
E e 到 表示 编码 时 刻 时 的 外 部 输入 。 最 简单 的 情形 是 输入 只 限于 一 个 单 氨基 酸 ， 
《=20， 以 及 利用 正 交 二 元 编码 ( 见 6.1 节 )。 在 这 种 情形 下 ， 没 有 必要 加 和 人 一 个 额 
外 的 输入 符号 代表 蛋白 质 的 末端 部 分 。 扩 展 到 几 个 氨基 酸 的 大 窗口 当然 也 是 可 能 
的 。 函 数 7 通 过 一 个 神经 网 络 N 实 现 ( 昂 图 9-15 的 中 心 和 上 端的 连接 )。 因 此 为 
了 确保 一 个 一 至 的 概率 解释 ， 网 络 N; 的 三 个 输出 节点 按照 以 下 归 一 化 指数 形式 
( tisoftmax A) 获得 




















o= exp(nens) _ i=1,2,3 (9.16) 


Se exp (ner,,) 


Sener, ,是 在 位 点 :的 第 ;个 输出 节点 的 输出 值 。 模 型 的 性 能 可 以 用 估计 分 布 和 目 
nS) A ZA AT RTP o 

模型 的 新 颖 之 处 在 于 包含 了 向 量 F,e R"， 尤 其 是 B,e R" 中 的 上 下 文 信息 。 这 
些 满足 下 列 的 双向 反馈 方程 ; 

















FeQF yt) 


BERB a 1) (9.17) 





RE, OC + AIBC + ) 是 可 学 习 的 非 线性 状态 转移 函数 。 它 们 可 以 在 不 同 的 形式 下 
实现 ， 但 这 里 我 们 假设 它们 用 两 个 神经 网 络 一 一 9 和 ?Ap ( 图 9-15 中 的 左 子 网 络 
和 右 子 网 络 ) 来 实现 ， 这 两 个 神经 网 络 各 自 带 有 n 和 m 个 logistic 输 出 节点 。 因 此 ， 
No 和 Np 分 别 为 n+k 和 m+k 个 输入 所 馈送 。 特 别 是 结合 参考 文献 [445 ] 中 描述 的 
权重 共享 方法 后 ， 实 现 大 的 输入 窗口 也 是 可 能 的 ， 其 中 不 同 的 输入 可 以 用 于 计 
算 F、B, 和 0,。 前 向 链 F, 储 存 了 包含 在 时 刻 ! 之 前 的 上 下 文 信息 ， 并 与 标准 RNN 
中 内 部 状态 起 着 相同 作用 。 模 型 的 新 部 分 以 附加 的 后 向 链 B, 的 形式 出 现 ， 人 负责 
储存 包含 在 时 刻 ! 之 后 的 上 下 文 信息 ， 即 将 来 的 信息 。 双 向 动态 的 实际 形式 由 子 
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网 络 和 Ng 和 Np 间 的 连接 权重 控制 。 我 们 将 看 到 ， 这 些 权重 可 以 通过 最 大 似 然 估 
计 进 行 调 整 。 由 于 (9.17) 涉及 两 个 再 循环 ， 必 须 给 出 序列 开始 和 结束 时 候 的 
两 个 相应 的 边界 条 件 。 为 简单 起 见 ， 这 里 我 们 取 Fo=Bww1=0， 但 是 通过 扩展 参 
考 文献 [ 184 ] 中 建议 的 关于 标准 RNN 的 技术 ,使 边界 条 件 适应 数据 也 是 可 能 
的 。 

离散 时 间 指 标的 范围 从 1 到 N，N 是 所 考察 的 蛋白 质 的 总 长 度 。 因 此 概率 输出 
O1 通 过 一 个 RNN 参 数 化 ， 并 且 依 赖 于 输入 1, 和 完整 蛋白 质 序 列 中 的 上 下 文 信息 ， 
此 概率 输出 可 以 概括 为 向 量 对 ( FF, B,)。 相 反 地 ， 在 一 个 通常 的 神经 网 络 方法 中 
这 些 概率 分 布 仅仅 依赖 于 一 个 相对 短 的 氨基 酸 子 序列 。 直 觉 上 我 们 可 以 将 F, 和 有 B， 
想像 为 能 沿 着 蛋白 质 被 “滚动 ”的 “轮子 ”。 为 了 预测 在 位 点 :的 类 别 ， 我 们 沿 着 
从 N 端 到 C 端 的 方向 反 向 滚动 “轮子 ”， 直 到 位 点 :， 然 后 结合 在 “轮子 ”中 读 到 的 
内 容 和 厂 ， 利 用 7 计算 出 合适 的 输出 。 

从 输入 氨基 酸 序列 到 输出 类 别 序列 之 间 的 全 局 映射 ， 可 以 通过 图 9-16 中 的 
模 卉 来 描述 。 这 个 网 络 代 表 变 量 1,、F,、B, 和 0, 对 于 所 有 时 间 :=1,…,N 展 开 时 的 
接 依赖 性 。 每 个 节点 山 变量 之 ~ 标号 ， 弧 线 表示 直接 功能 依赖 性 。 除 了 I,、F,、 
和 0O, 之 交 的 内 部 关系 在 这 里 是 确定 的 而 不 是 概率 性 的 外 [(9.15) 和 (9.17)]， 这 个 
表示 基本 的 贝 叶 斯 网 络 BIOHMM。 然 而 ， 完 整 的 BRNN 模 型 是 一 个 概率 模型 。J 
如 我 们 所 看 到 的 ， 在 BIOHMM 中 的 推理 是 容易 的 ， 但 是 每 一 步 的 时 间 复 杂 度 为 
On?) (这 里 z 为 链 中 的 典型 状态 数目 )， 这 一 点 限制 了 它们 应 用 到 二 级 结构 的 实际 
预测 工作 中 。!35- 

由 (9.15) 和 (9.17) 产生 的 结构 显示 在 图 9-15 中 ， 为 简单 起 见 ， 其 中 所 有 
的 NN 部 有 一 个 单 隐 层 。 隐 状态 F 被 复制 回 输入 。 这 些 以 图 示 形式 出 现在 图 9-15 
中 ， 图 中 我 们 利用 了 因果 移 位 操作 子 (causal shift operator) gq 1!， 这 个 操作 子 对 
类 别 的 时 间 变 量 %, 进 行 操作 ， 并 且 公 式 化 地 定义 为 1=q"'X,。 类 似 地 ，gq 表 示 移 
位 操作 于 gq HE (或 非 因果 复制 )， 它 由 X=qX, 和 g-!1g=1 定 义 。 如 图 9-15 所 示 ， 
一 个 韭 因果 复制 在 隐 状 态 B, 中 被 实现 。 明 显 地 ， 移 除 1 8, 1 就 回 到 了 标准 因果 
RNN。 

模型 自由 度 的 数 日 依赖 于 两 个 因素 :〔 1 ) 前 向 和 后 向 状态 向 量 的 维 数 4 和 m; 
(2 ) 实现 状态 转移 和 输出 函数 的 三 个 前 馈 网 络 中 的 隐 节 点 的 数目 《 见 图 9~15 )。 
注意 将 BRNN 规 定 为 一 个 稳 态 网 络 这 一 点 是 重要 的 ， 即 在 网 络 实现 中 的 连接 权重 
{ABC +). AORN ) 不 随时 间 变 化 ， 也 就 是 不 随 蛋 白质 的 位 置 变化 。 这 是 一 种 
减少 自由 参数 数目 和 过 拟 合 风险 的 权重 共享 形式 ， 它 不 必 有 牺牲 捕获 远程 信息 的 能 
力 。 
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! 位 氨基 酸 


9-15 双向 反馈 的 神经 网 络 结构 
输入 对 应 给 定 蛋白 质 序列 中 的 氨基 酸 宁 符 。 答 出 对 应 相应 的 c 絮 旋 、/ 白 玖 以 及 无 规 卷曲 等 二 级 结构 类 别 。 


9.6.2 推理 和 学 习 




















由 于 图 9-16 中 显示 的 图 是 无 环 图 ， 因 此 可 通过 明确 定义 全 局 处 理 方案 对 其 节 
点 可 进行 拓扑 排序 。 利 用 随时 间 展 开 的 网 络 ，BRNN 预 测算 法 从 Fo=0 开 始 ， 从 左 
到 右 更 新 所 有 状态 F,。 类 似 地 ， 状 态 B, 从 右 到 左 进行 更 新 。 在 前 向 和 后 向 传播 发 生 
以 后 ， 预 测 0, 可 以 被 计算 出 来 。 前 向 和 后 向 传播 仅 需 要 对 每 个 蛋白 质 序列 进行 一 




















输出 : 二 级 结构 符号 序列 
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图 9-16 双向 BRNN 中 变量 的 直接 根 关 性 
边界 条 件 由 Fo=Bwou=0 以 及 与 当前 蛋白 质 序 列 相关 的 输 人 提供 。 














次 从 末端 到 末端 的 计算 。 
值 的 数目，N 是 蛋白 质 序列 
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此 ， 这 种 算法 的 时 间 复 杂 度 是 O(NW)， 其 中 W 是 权重 
的 长 度 。 这 个 复杂 度 与 由 








tai 





定 大 小 窗口 馈 给 的 前 馈 网 络 





的 复杂 度 相同 。 在 BRNN 的 情形 中 ，W 以 阶 O(n ) 增 加 ， 通 过 在 关于 所. AIBC ) 的 





子 网 络 中 限制 隐 节点 的 数 月 ， 可 以 减少 权重 值 的 实际 数目 。 
理 比 BIOHMM 中 的 推理 更 有 效 ，BIOHMM 中 推理 的 复杂 度 为 OOVm3)。 
个 最 大 似 然 估计 | 








学 习 问题 可 以 表示 为 一 








此 ，BRNN 中 的 推 


[36] 




















问题 ， 其 中 ， 对 数 似 然 度 本 质 上 是 在 


给 定 输入 氨基酸 序 询 后 ， 二 级 结构 的 预测 分 布 和 真实 条 件 分 布 之 间 的 相对 炳 : 


E E$ loso., 


FA t=) 





其 中 如 果 位 置 { 的 二 级 结构 是 i， 





Wz; =l, 


(9.18) 


否则 zi, =0。 优 化 问题 可 以 用 梯度 下 降 


法 解决 。BRNN EMA AAA DAMA TE 它 的 梯度 是 通过 考虑 无 因果 


瞬时 相关 性 来 i 
广义 的 反 向 传播 算法 可 以 作为 使 用 
从 直觉 上 看 ,误差 信 号 首先 被 赋 到 
然后 ， 通 过 跟随 散 开 弄 网络 的 任意 反 向 
向 上 传播 ( 见 图 9-16 )。 
为 模型 是 稳 态 的 ， 所 以 权重 值 在 不 
些 ， 通 过 对 所 有 与 不 同时 间 步 骤 相 关 
个 梯度 。 
为 了 加 快 


f 算 确定 的 。 由 于 散 开 型 
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显然 ， 这 个 步 又 也 涉及 到 经 过 NN 隐 层 的 反 向 传播 。B 
同 的 时 


网 络 ( unrolled network) 是 无 环 网 络 ， 


结构 算法 O°) 的 反 向 传播 的 一 种 特殊 情形 。 
对 应 于 输出 变量 O, 的 叶 节 点 (leaf node) 上 。 


拓扑 类 别 ， 这 一 误差 信和 号 在 两 个 时 间 方 














间 点 上 、 不 同 的 NN 复制 之 间 是 共享 的 。 
导 的 贡献 值 求 和 ， 就 可 以 简单 地 获得 整 


收敛 速度 ， 采 用 在 线 权重 值 更 新 方法 很 方便 。 一 旦 关于 某 个 蛋白 质 
的 梯度 已 经 被 计算 得 到 ， 权 重 值 立 即 就 可 





以 更 新 。 这 个 方法 也 可 以 通过 增加 一 个 





启发 式 的 学 习 率 自 适应 算法 来 充实 : 如 果 在 


ER 
9.6 


一 个 给 定 的 阅 值 以 下 ， 
3 长 程 相 关 性 





GREA 








固定 周期 数目 中 的 平均 误差 减少 量 降 











则 异型 的 学 习 率 也 随 之 降低 。 


在 训练 标准 RNN 时 ， 主 要 的 困难 之 一 是 梯度 消失 问题 。[?] 直觉 上 看 ， 为 了 在 
《或 位 置 ) ! 处 对 输出 有 所 贡献 ， 王 寺 刻 的 输入 信 号 必须 在 前 向 链 中 ， 通 过 神 








经 网 


络 的 r 个 复制 来 传播 ， 以 使 执行 状态 转移 功能 。 然 而 ， 在 计算 梯度 时 ， 误 差 信 


号 必须 滑 着 相同 路 径 反 向 传播 。 每 个 传播 都 可 以 解释 为 误差 向 量 与 激活 函数 的 
Jacobian 短 阵 的 乘积 。 遗 憾 的 是 ， 当 动态 模 弄 形成 允许 系统 可 靠 存 储 历史 信息 的 吸 





SIF (attractor) 时 ，Jacobian 年 阵 的 范 数 小 于 1。 
刻 - 药 输入 的 误差 梯度 以 指数 形式 趋 于 消失 。 类 伏地 ， 对 于 BRNN 情 形 ， 在 前 





于 时 








此 当 了 比较 大 时 ， 在 时 刻 !， 关 
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向 链 和 后 向 链 中 的 误差 传播 也 以 指数 形式 衰减 。 因 此 ， 虽 然 这 种 模型 在 原则 上 有 能 
力 存储 远程 信息 ,但 这 些 信息 不 能 被 有 效 地 学 习 。 很 明显 , 这 是 一 个 理论 上 的 讨论 ， 
它 的 实际 影响 需要 根据 每 种 基本 情形 来 评估 。 

在 预测 蛋白 质 二 级 结构 的 实 路 中 ，BRNN 能 够 可 靠 地 利用 大 约 + 15 个 氨基 酸 
长 度 之 内 的 输入 信息 〈 即 总 共有 效 的 窗口 大 小 大 约 是 31 个 氨基 酸 )。 它 通过 逐渐 
增加 蛋白 质 片断 长 度 来 进行 经 验 件 估计 并 回 镇 给 模型 。 我 们 观察 到 ， 如 果 蛋 白 
质 片断 的 长 度 变 化 超出 41 个 氨基 酸 ， 中 心 残 基 位 置 的 预测 精度 没有 显著 的 变化 。 
这 是 对 和 输 和 人 窗口 大 小 范围 为 11-17 个 氨基 酸 的 标准 神经 网 络 的 改进 。[4544452901 
据 推测 ， 在 更 长 距离 的 地 方 也 有 相关 的 信息 存在 ， 但 是 到 目前 为 目 还 不 能 找到 
它们 。 
为 了 限制 这 个 问题 ， 最 近 提出 了 一 种 补偿 的 方法 。 这 种 方法 指出 ， 梯 度 消失 
问题 可 以 用 一 个 针对 输出 的 外 部 类 灌 来 缓和 ， 它 为 误差 信号 的 有 效 传播 提供 了 短 
Bete, OO 遗 幅 的 是 ， 由 于 与 双向 传播 结合 的 输出 反馈 在 散 开 型 网 络 中 将 形成 环 ， 
此 这 种 思想 方法 不 能 直接 应 用 到 BRNN 中 。 然 而 ， 一 种 类 似 的 机 制 可 以 利用 以 
下 的 调整 动态 过 程 进行 补充 : 


FOP ts Fass Fro td) 
























































B,=BB ii Ban s Buo d) (9.19) 


对 于 前 向 和 后 向 状态 的 明显 相关 性 ， 在 图 模型 中 引入 了 捷径 连接 ， 形 成 了 梯 
度 不 能 被 传播 的 短路 径 。 这 与 在 概率 模型 情形 中 引入 高 阶 马尔 可 夫 链 是 相同 的 。 
然而 ， 高 阶 马尔 可 夫 链 的 参数 个 数 以 * 的 指数 级 别 增长 ， 而 在 这 里 ， 参 数 个 数 仅 
以 5 的 线性 增长 ， 这 点 是 不 同 的 。 为 了 减少 参数 个 数 ， 关 于 〔9.19 ) 的 一 种 简化 方 
法 限制 了 对 远离 :的 s 残 基 状 态 向 量 的 依赖 性 : 


b= OF Fs 1) 











B= PBB, Bay 1) (9.20) 


这 个 基本 结构 的 另外 一 种 变化 主要 在 于 ， 在 前 向 和 后 向 状态 链 中 会 送 带 有 一 个 窗 
口 的 输出 网 络 ， 以 便 增 大 有 效 的 窗口 长 度 。 在 这 种 情形 中 ， 预 测 值 由 下 式 计算 得 
到 ; 





ORNs Fa B, B, 


no Beo 


reo A) {9.21) 


注意 ， 对 于 向 量 只 和 Bi,， 窗 口 可 以 在 时 刻 ! 的 过 去 和 将 来 扩展 。 
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图 9-17 BRNN 所 利用 的 距离 信息 


水 平 轴 表 示 +， 即 离 给 定位 点 的 距离 。 在 给 定位 点 之 后 ， 所 有 的 入 口 信 均 冉 为 0。 每 -条 曲线 家 示 测试 
集 模糊 矩阵 的 一 个 归 一 化 行 。 
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9.6.4 实现 和 结果 
BRNN 已 经 用 于 二 级 结构 预测 服务 工具 SSpro， 











此 工具 可 以 从 因特网 获得 。 3 除 











了 利用 BRNN 外 ，SSpro 还 利用 了 近年 来 已 经 证 明 





对 于 预测 二 级 结构 有 用 的 一 些 特 


征 ， 例 如 总 体 特征 和 序列 谱 特 征 〈 见 6.3 节 )。 特 别 是 在 输入 层 上 ， 序 列 谱 特征 被 





大 量 使 用 。 第 ! 版 的 SSpro 使 用 了 由 BLAST 生成 的 


序列 谱 特 征 ， 它 的 实验 细节 和 性 


能 分 析 在 见 参考 文献 [ 37 ] 。SSpro 的 最 新 版 本 使 用 了 PSI-BLAST 程 序 生 成 的 序 
列 谱 特 征 ， 达 到 了 大 约 80 多 的 正确 识别 率 。 在 2000 年 的 CASP 言 预测 竞赛 和 Rost 独 
立 自动 评估 服务 EVA (http://dodo.bioc.columbia.edu/~eva/) 的 测评 结果 中 ， 
SSpro 已 经 进入 最 好 的 预测 工具 之 列 ， 而 这 些 测评 是 基于 每 周 存储 在 PDB 数据 库 


中 的 新 序列 进行 的 。 


除了 性 能 结果 之 外 ， 为 了 研究 BRNN 模 型 捕捉 长 程 信息 的 能 力 ， 研 究 人 员 进 
行 了 大 量 实验 。 对 于 每 一 个 蛋白 质 和 每 一 个 氨基 酸 位 点 :， 我 们 用 0 值 代替 所 有 在 




















一 个 半 窗 口 大 小 r 为 0~23 的 测试 集 模糊 矩阵 的 归 





KE [rr r] 之 外 的 输入 ， 并 将 获得 的 序列 馈送 给 以 上 BRNN。 对 于 0~23 中 不 
同 的 rf 值 ， 实 验 重复 进行 。 结 果 显 示 在 图 9-17 中 ， 其 中 ， 每 个 图 形 中 的 曲线 表示 


























一 化 行 。 例 如 在 第 一 个 图 形 中 ， 


作为 t 的 一 个 函数 ， 由 HC 标号 的 线 表示 归 类 为 蛋白 质 无 靓 卷曲 的 百分率 。 当 +> 


15 时 ， 曲 线 最 稳定 。 虽 然 这 个 模型 对 很 远 距 离 的 


信息 不 敏感 ， 但 应 该 注意 到 ， 在 


相关 的 文献 中 ， 典 型 前 局 网 络 都 没有 利用 全 8 之 外 的 信息 。 
基因 组 和 其 他 测序 计划 得 到 了 大 明和 蛋白 质 序列 ， 因 此 二 级 结构 预测 精度 提高 























哪怕 是 很 小 的 百分率 ， 对 于 结构 基因 组 来 说 也 是 有 意义 的 。 到 目前 为 止 , 结合 


























模型 的 机 器 学 习 算 法 和 它们 的 神经 网 络 参数 化 算法 是 这 个 研究 领域 最 好 的 方法 之 
一 。 这 里 提出 的 BRNN 以 及 相关 的 思想 开始 处 理 长 程 相关 性 的 问题 。 因 此 ， 现 在 
BRNN 已 经 发 展 到 预测 大 量 其 他 结构 特征 ， 包 括 听 村 中 氨基 酸 配对 数 、 相 邻 残 基 
的 数目 和 水 溶性 。 ”21 这些 预 测 模块 是 蛋白 质 三 维 结构 预测 的 更 广泛 的 策略 的 














一 部 分 。 这 些 策略 基于 接触 图 (contact map) 的 











中 间 形 态 预 测 ， 始 于 初级 序列 及 





预测 的 结构 特性 ， 具 有 低 ( 二 级 结构 ) 和 高 ( 氨基酸 ) BOSSE, KRE, MS 








维 空间 中 二 级 结构 元 件 之 间 排 列 关 系 的 预测 到 
测 ， 还 需要 走 很 长 的 路 。 


白质 拓扑 结构 和 三 维 结构 的 预 


这 项 工作 可 以 向 几 个 方向 拓展 ， 其 中 包括 构架 上 的 许多 变化 。 除 了 对 /使 用 


更 大 的 输入 窗口 外 ， 对 于 先前 和 将 来 的 信息 ， 我 








们 可 以 考虑 使 用 非 对 称 链 ， 也 可 


以 考虑 使 用 关于 参数 和 【或 ) 与 后 验 学 习 方 法 联系 在 一 起 的 构架 的 先 验 知识 。 我 


D SSpro 可 通过 http:/promorerics.uci.edurBRNN-PRED 访 问 。 
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们 还 可 以 用 一 种 带 有 不 同 记忆 能 力 的 多 个 “ 轮 ” 组 成 的 “多 轮 阵 列 ”， 沿 蛋白 质 
的 不 同方 向 滚动 并 且 可 能 跨越 更 短 的 距离 。 这 一 方法 可 能 优 于 两 个 “ 轮 ” 的 方法 。 
值得 注意 的 是 ， 使 用 多 层 感知 内 实现 BC AOC + ) 仅 仅 是 一 种 选择 。 例 如 ， 递 归 
径 向 基 函 数 或 2 阶 RNN 的 推广 是 容易 实现 的 参数 化 方法 。 最 后 ， 本 节 中 描述 的 思 
想 可 以 应 用 于 处 理 牛 物 信息 学 的 其 他 问题 ， 也 可 以 应 用 于 适用 非 肉 果 方 法 的 其 他 
领域 。 对 于 一 般 方法 的 进一步 拓展 ， 显 然 包 括 蛋 白质 功能 特征 的 预测 ， 如 信号 肽 
的 预测 。 
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10.1 进化 的 概率 模型 简介 


这 一 章 主要 讨论 生物 进化 以 及 如 何 由 序列 数据 推断 系统 进化 树 (phylogenetic 
tree )。 之 所 以 把 这 部 分 内 容 包含 进来 ， 一 方面 是 因为 序列 进化 是 计算 分 子 生物 学 
的 一 个 中 心 问题， 另 一 方面 是 因为 这 里 用 到 的 思想 和 算法 能 够 很 好 地 再 次 阐释 第 

















2 章 中 讲述 的 广义 概率 推断 体系 。 


自 达尔 文 时 代 以 来 ,生物 〈 尚 生存 的 或 已 灭绝 的 ) 之 间 的 进化 关系 一 直通 过 
形态 和 (或 ) 生化 特性 米 排 测 。 如 今 ， 人 们 普遍 采用 DNA 和 蛋白 质 序列 来 得 到 系 
BRL. O) 由 于 DNA 分 子 极其 稳定 ， 人 们 甚至 可 以 从 灭绝 了 多 年 的 生物 体内 提 
取出 大 段 完好 的 DNA。[250 利用 其 DNA， 人 们 已 经 把 早已 灭绝 了 的 与 象 相近 的 猛 
狗 象 定位 到 系统 进化 树 上 ; 对 于 死去 的 人 ,人们 可 以 据 此 建立 他 们 的 准确 家 系 关系 。 











在 最 近 的 研究 中 ， 人 们 证 实 了 俄国 的 末代 沙皇 尼古拉斯 二 1 





世 的 身份 ， [211,274] 还 证 明 








了 安娜 .安德森 声称 自己 是 沙皇 遗失 的 女儿 阿 纳 斯 塔 西 姬 的 故事 是 假 的 。 2247 1 沙 


皇 的 遗 骨 和 DNA ) 自 1918 年 以 来 就 一 直 被 埋 在 土 里 。 





文献 中 有 很 多 从 序列 数据 推断 系统 进化 树 的 方法 。 大 多 数 方法 是 以 下 两 种 主 


要 方法 的 变形 : Swe 08) 和 似 然 法 。 178519269] 显然 ， 


似 然 法 以 进化 过 程 的 概 


率 模型 为 基础 ( 见 参考 文献 [ 295 ] )。 实 际 上 ,“ 似 然 法 ”( likelihood metbod ) 
这 一 名 词 常常 被 用 在 与 一 类 特定 的 概率 模型 相 联 系 的 领域 中 。 尽 管 音 青 法 以 进化 





模型 形式 独立 描述 ,但 实际 上 可 以 看 做 似 然 法 的 近似 。 


从 广义 贝 叶 斯 体系 和 考 克 斯 一 杰 恩 斯 公理 出 发 ， 我们 知道 : 为 了 从 一 组 序列 
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中 推断 出 系统 进化 树 ， 必 须 先 有 一 个 进化 的 概率 模型 。 最 大 似 然 估 计 (ML ) 法 
我 们 根据 这 样 一 个 模型 所 能 够 做 的 最 基本 的 一 步 推 断 。 日 前 文献 中 的 所 有 其 他 
法 都 以 ML 为 基础 ， 包 括 参 考 文献 [ 178 ] 中 基于 某 一 类 特定 模型 的 ML 法 。 正 
我 们 已 经 看 到 的 ，HMM 并 非 撒 述 进化 过 程 的 一 个 完备 模型 。 在 分 子 水 平 上 ， 
进化 不 仅 可 以 通过 插入 和 缺失 进行 ， 市 且 也 可 以 通过 替换 、 倒 置 和 转 位 来 进行 ， 
因而 必须 采用 不 同 的 模型 。 下 面 首先 介绍 一 些 有 关 树 的 基本 知识 和 概念 。 


10.1.1 树 











Sb 并 











一 棵 树 7 是 一 个 无 环 连通 图 (connected acyclic graph )。 在 树 里 ， 每 2 个 点 由 
惟一 的 1 条 路 径 相 连 ， 而 且 顶 点数 总 是 严格 地 比 边 数 大 1。 如 果 一 棵 树 的 每 个 顶点 
只 有 1 个 或 3 个 邻居 ， 那 么 这 棵 树 就 是 二 又 《binary ) 树 。 如 果 有 一 个 节点 被 选中 
作为 根 ， 那 么 这 棵 树 就 是 有 根 (rooted) 树 。 在 系统 进化 树 里 ， 根 用 于 表示 祖先 
序列 ， 所 有 其 他 序列 都 出 这 个 序列 演化 而 来 。 系 统 进化 树 〔 不 论 是 有 根 树 还 是 无 
根 树 ) 的 两 个 重要 特征 是 拓扑 和 枝 长 。 拓 扑 指 树 随时 间 发 生 的 分 支 模式 。 枝 长 经 
常 以 某 种 方式 被 用 来 表示 捉 件 之 问 的 时 间距 离 ( 图 10-1 )。 




















r 





图 10-1 简单 的 二 进 制 系统 进化 树 


?为 根 ; 友 是 节点 :和 j 间 的 时 间距 离 ，X, 为 对 应 隐 节 点 ;的 字符 。 底 部 的 时节 点 对 应 十 观察 色 的 字符 。 从 i 
节点 到 ;节点 的 普 换 概率 为 pxs(d,)。 


10.1.2 概率 模型 
最 基本 却 十 分 有 用 的 概率 进化 模型 也 是 简单 假 子 模型 的 一 种 变 体 。 可 以 想像， 
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从 一 个 祖先 序列 出 发 ， 进 化 是 随机 进行 的 ， 只 存在 替换 ， 并 昌 这 种 蔡 换 在 各 个 位 
芭 间 是 独立 的 。 如 果 我 们 考虑 序列 的 一 个 给 定位 兽 ;， 且 用 X ORR Altea 
的 字符 ， 我 们 可 以 做 一 个 一 般 的 马尔 可 夫 过 程 假 设 ， 即 对 于 : > 0， 概 率 


Byx(D=PCX (t+s)=YIX(s)=X) (10.1) 











与 ss>0) 独 立 。 因 此 ， 对 每 个 位 置 ;， 存 在 一 个 概率 pyx( 六 表示 X 经 过 + 时 间 长 的 
进化 过 程 被 Y 痊 换 的 概率 。 因 而 这 相当 于 在 每 个 时 刻 1 和 每 个 位 置 :上 有 一 个 14| 面 的 
和 骸 子 。 为 了 进一步 简化 这 个 模型 ， 现 在 做 进一步 的 近似 ， 即 假设 替换 概率 在 所 有 
位 置 上 都 是 相同 的 ， 这 样 就 有 pyx(D=pvwx(9。 显 然 ， 对 于 任意 X、Y 和 +， 我 们 必 有 
Pwx(Dz0 且 了 pwx(D=1。 考 虑 到 时 刻 和 s* 时 刻 事件 的 独立 性 ， 从 〔10.1) 可 以 扒 
出 Chapman-Kolmogorov 方 程 : 











pyx(t+s)= D pyz(Dpzx(s) (10.2) 
ZeA 


10.2 ”替换 概率 和 进化 速率 





为 了 确定 整个 模型 ， 剩 下 的 所 有 工作 就 是 确定 替换 概率 pvx(9。 这 与 替换 矩阵 
(如 在 第 1 章 中 我 们 曾经 讨论 过 的 PAM 和 矩阵) 有 关 。 我 们 可 以 进一步 合理 地 假设 





lim, Padoa Y X=]! Y=X 
10" 0 YS X 


(10.3) 
如 果 我 们 用 P(D 表 示 算 阵 P(D=(pyx(D))， 则 由 《10.3 ) 可 定义 PCO0)=1d， 其 中 14 是 [4| x 
14| 单 位 阵 。 可 以 证 明 P(O 的 每 一 个 矩阵 元 素 都 是 可 导 的 ， 于 是 记 P(D=(pyx(D))。 整 
个 进化 模型 完全 可 由 它 在 :=0 处 的 右 导数 确定 : 


Q=P"(0)= lim Pon (10.4) 
由 《10.4 ) 可 知 
PCD=CP(OD=PODOC (10.5) 


其 推导 过 程 如 下 : Prd0=P(ODP(d0=P(D(P(O)+CdD=P(DOGUd+rodD， 其 中 第 一 个 等 
式 由 (10.2 ) 得 到 ， 第 二 个 等 式 由 (10.4 ) 得 到 ， 于 是 有 PtrdD-P(D=P(DOdr。 
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WRF O=(qy), WE ( 10.5 )， 最 终 解 由 下 式 给 出 : 


200. Sgr" 
Plf=e™ =ld+ 》 = 
W > 





{10.6) 


注意 :如果 Q 是 对 称 的 ， 则 P 也 是 对 称 的 ， 反 之 亦 然 。 这 样 的 假设 可 以 简化 计算 ， 
但 在 生物 上 它 并 不 现实 ， RIMEDA, ney ait mane 
P(Dp=p， 则 称 一 个 分 布 列 向 量 p=(px) 是 稳 态 的 《 stationary )。 因 此 ，-- 旦 进入 稳 











态 分 布 ， 该 随机 过 程 就 永远 停留 在 该 分 布 上 。 根 据 (10. 











4 )， 这 意味 着 p 是 8 的 核 ， 


即 Qp=0。( 10.6 ) 也 说 明了 这 一 点 。 如 果 我 们 假设 被 观察 的 序列 是 由 系统 在 其 稳 





态 分 布下 产生 的 ， 那 么 p 就 可 以 很 容易 地 由 被 观察 到 的 序 


列 的 平均 组 成 估计 出 来 。 

















简要 概括 一 下 ， 我 们 定义 了 序列 进化 的 一 类 概率 模型 。 这 类 模型 由 四 个 假设 


来 刻画 : 











1. 在 每 个 位 点 ， 进 化 操作 仅仅 通过 替换 来 完成 ， 因 而 没有 插 和 人 和 缺失 。 所 有 














观测 序列 必须 具有 相同 长 度 ; 


2. 在 每 个 位 置 上 发 生 的 替换 与 其 他 位 置 上 发 生 的 替换 相互 独立 ; 


3. 替换 概率 仅仅 依赖 于 当前 状态 ， 与 历史 状态 无 关 
4. 每 个 位 置 具有 相同 的 马尔 可 夫 过 程 。 








(马尔 可 去 性质) ; 


真实 的 DNA 进 化 不 满足 上 述 任何 一 个 假设 。 在 真实 的 DNA 进 化 中 ， 序 列 长 
度 可 以 由 于 插 人 或 缺失 而 改变 ; 不同 位置 的 进化 不 是 独立 的 ; 进化 速率 不 论 是 在 
时 间 上 还 是 在 位 置 两 数 小 都 不 是 均匀 的 ; 真实 的 DNA 存 在 重组 现象 。 尽 管 如 此 ， 




















士 面 的 假设 仍 是 一 种 有 用 的 初步 近似 。 当 前 很 多 研究 集 ! 





P 在 如 何 放宽 这 些 假设 上 ， 





前 两 个 假设 可 能 最 难以 放宽 。 对 于 播 人 和 缺失 ， 人 们 可 








型 类 中 进一步 确定 模型 ， 必 须 提供 速率 矩阵 @。 


10.3 ”进化 速率 


以 在 现 有 体系 的 字符 集 4 


中 加 入 一 个 间隙 符 ， 虽 然 这 种 做 法 并 不 让 人 完全 满意 。 无 论 如 何 ， 为 了 在 上 述 模 





值得 注意 的 是 速率 矩阵 & 相 当 于 一 个 乘 子 ， 





为 对 于 任意 14 二 0， 有 





P(D)=exp(QD=exp[(XQXt/ 办 ]。 在 模型 类 的 一 个 简单 的 子 类 里 ， 假 设 hdt 是 给 定位 置 
上 上 一 小 段 时 间 内 替换 发 生 的 概率 。 于 是 ，4 是 单位 时 间 的 替换 率 。 进 一 步 地， 如 
果 发 生 了 蔡 换 ， 字 符 将 以 概率 p=(px) 被 选中 。 于 是 我 们 有 








Pyx(at)=(1-Adt XY, X)+Adtpy 


(10.7) 
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对 于 任意 X、Y， 这 等 价 于 按照 下 式 确定 @: 
Qxx=APy-1) 和 gyx=Apy (10.8 ) 


注意 到 e“ 是 一 个 时 间 段 [内 不 发 生 任 何 替 换 的 概率 ,由 (10.8) 4 (10.6), RE 
接 由 (10.7) 可 以 得 到 : 


pyx(t)=e AY, X+- py (10.9) 


(10.7) 中 的 分 布 p 可 以 任意 选择 ， 这 一 点 很 有 用 。 但 是 ， 一 旦 被 选 定 ， 可 以 证 明 
EE (109) 的 稳 态 分 布 ， 它 就 有 了 与 上 面 所 述 的 性 质 。 如 上 所 述 ， 如 果 假 设 数 
据 处 于 平衡 态 ，p 可 以 由 数据 直接 得 到 。 

另外 ，pvx(D0 只 通过 乘积 4 与 ! 相 关 。 在 缺少 任何 其 他 条 件 的 情况 下 ， 可 以 选 
4M=1， 这 时 是 以 替换 发 生 的 期 望 数目 为 单位 来 度量 时 间 ! 的 。 如 果 人 允许 4 沿 着 树 的 
每 个 枝 改变 ， 就 等 价 于 在 不 同 的 枝 上 采用 了 不 同 速率 的 时 钟 来 测量 时 间 。 于 是 沿 
所 有 可 能 的 路 径 ， 从 根 到 叶 节 点 的 总 长 度 可 以 不 再 是 一 个 常数 。 

由 《10.9 ) 定义 的 过 程 的 另 一 个 有 用 特性 是 可 逆 性 ， 即 替换 过 程 沿 着 时 间 轴 
向 前 和 向 后 看 都 是 一 致 的 。 考 虑 到 如 下 事实 ， 这 一 点 就 不 难 理解 了 : H (10.9) 
可 以 得 到 平衡 方程 

















PyxOPx=Pxy(OPy (10.10) 
而 其 他 的 概率 进化 模型 也 满足 可 道 性 。[2021 


10.4 数据 似 然 度 


给 定 一 组 序列 和 概率 进化 模型 ， 可 以 试 着 寻找 最 可 能 的 树 的 拓扑 结构 和 最 可 
能 的 校 的 长 度 。' 591 这 就 是 使 用 “系统 进化 的 ML 法 ”这 种 表述 方式 的 原因 所 在 。 

我 们 首先 假设 在 字符 集 4. 上 有 XK 个 序列 ， 所 有 序列 长 度 都 为 N， 相 应 地 给 出 一 
棵 系统 进化 树 T7， 具 有 根 节点 r， 相 邻 顶 点 ;和 和 j 之 间 的 时 间 长 度 为 4;。 第 一 个 目标 
是 根据 前 文 所 述 的 进化 的 马尔 可 夫 模 型 计算 似 然 度 P(O,, …, Oil7)。 根 据 各 列 之 间 
的 独立 性 假设 ， 有 


N 
PCO,,--,0dD= | [P0 on (10.11) 
kel 


其 中 ，G+ 表 示 第 /个 序列 的 第 个 字符 。 这 样 ， 只 需 研 究 与 第 k 列 对 应 的 P(O…,O4D 








238 生物 信息 学 


这 一 项 ， 它 在 树 的 K 个 叶 节点 上 具有 字符 0O} 。 在 以 下 的 讨论 中 ， 将 用 一 般 性 的 记号 
0 来 表示 在 一 个 固定 位 置 上 观察 到 的 字符 集 。 我 们 可 以 认为 ， 在 树 的 每 个 顶点 上 上 有 
一 个 隐 随 机 变量 Xx,， 表 示 顶 点 i 上 的 字符 。 于 是 ， 这 样 一 棵 系统 进化 树 就 可 以 看 成 是 
一 个 简单 的 贝 叶 斯 网 络 〈 见 附录 C )， 该 网 络 具有 树 的 结构 且 给 定 父 节 点 i， 节 点 的 
RIERA SKa, 时 间距 离 )， 其 形式 为 


PAV l=X)=pyx(di) (10.12) 























因此 ， 所 有 常用 的 有 关 贝 叶 斯 网 络 的 算 汰 都 可 以 用 于 这 一 简单 情形 。 特 别 地 ， 似 
然 度 P(OID=P(OY …,Og7) 可 以 通过 两 种 途径 来 计算 : 一 种 从 根 节点 开始 算 ， 一 种 
从 时 节点 开始 算 。 

如 果 从 根 节点 开始 计算 ， 用 ( Xi ) 表示 分 配给 内 部 节点 7{ 包括 根 节点 r 但 不 
包括 叶 节 点 ) 的 字符 。 分 配给 内 部 节点 的 字符 扮演 的 当然 是 隐 变 量 的 角色 ,类似 
于 第 7 章 的 8BMM 路 径 。 在 这 里 , 记 X 为 分 配给 项 点 ;的 字符 ,该 记 续 可 以 加 以 扩展 ， 
使 之 包含 那些 在 叶 节 点 上 观察 到 的 字符 。 这 样 -- 种 全 局 分 配 的 概率 很 容易 被 计算 
出 来 : 





P(O, XIDO X T] TT axa (1013) 
iet jeN*{i) 





其 中 ，p, 是 根 节点 字符 的 先 验 分 布 。N*(i) 表 未 顶点 的 子 节 点 集合 ， 边 的 方向 是 从 
根 节点 指向 叶 节 点 。 假 设 过程 处 于 平衡 状态 ，p, 是 稳 态 分 布 p=p, 并 可 以 通过 平均 
组 成 加 以 估计 。 观 测 似 然 度 通过 对 所 有 可 能 的 分 配 求 和 来 计算 : 














POD- Sip.) JI TI 7x» (10.14) 
(X,) F-frhen*() 
以 上 求 和 式 含有 |4I"™* 项 ， 因 此 计算 效率 很 低 。 其 中 | 是 树 的 数目 。 

递归 地 将 数据 信息 从 被 观察 的 叶 节 点 向 根 节点 传播 ， 能 够 大 大 提高 似 然 度 计 
算 的 效率 。 用 O*(D 表 未 以 项 点 为 根 节 点 的 子 树 所 包含 的 数据 信息 ， 即 在 ;的 后 代 
叶 节点 上 观察 到 的 字符 ， 则 车 ;是 树 的 叶 节 点 ， 有 

. 1 车 X 在 ;处 观察 到 
PCO-DIK=X， -| (10.15) 
0 ”车 X 未 在 ;处 观察 到 

如 果 叶 节点 上 是 什么 字符 比较 模糊 ， 孝 么 可 以 利用 另 一 种 分 布 。 如 果 ; 是 任意 内 部 
节点 ， 则 
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KOX D= > DY pyx(d)P(O' OIYAY, T) (10.16 ) 
Yea jent (i) 
数据 信息 O 可 以 以 这 种 方式 传播 到 根 节 点 r。 这 样 ， 容 易 得 到 如 下 完整 的 似 然 度 : 


POln= p> POROX, D= nOP(OW=X, T) (10.17) 
Xea €. 
RHE IBF a RH, ARZA “FE” (peeling ) 
算法 或 “ 剪 层 ”( pruning ) 算法 。 注 意 ; 对 于 每 一 列 ， 均 可 选择 不 同 的 p, 平 均 组 
成 和 p%x(dj) 概 率 ， 但 前 面 的 计算 结构 不 改变 。 因 此 ， 每 个 位 点 的 进化 模型 相似 ， 
但 不 必 完全 相同 。 另 外 值得 注意 的 是 ， 还 可 以 计算 出 内 部 节点 的 一 个 最 优 ( 最 有 
可 能 的 ) 分 布 ， 而 不 是 去 综合 内 部 节点 的 所 有 可 能 分 布 。 这 等 价 于 我 们 在 HMM 
中 的 Viterbi 路 径 计算 。 
一 个 有 用 的 结论 是 ， 如 果 进 化 模型 是 可 逆 的 ， 且 对 根 节点 的 位 置 没有 任何 外 
部 约束 《例如 要 求 所 有 的 叶 节 点 都 是 同时 期 的 )， 那 么 似 然 度 与 根 节点 的 位 置 相 
互 独立 。 前 向 过 程 和 后 向 过 程 相等 ， 根 可 以 沿 着 树 的 边 任 意 移动 ， 从 而 在 整 棵 树 
PERG. HUD, SRR, CARPA, BPA, EAE 
j 的 梳 上 有 一 个 备 选 根 节点 (图 10-2)。 从 (10.16) Al (10.17) RNA 
































POIT) = ,之 PAX pyx(d, PCO" OEY, Npzx(4,)PO"(8)|x,=Z, T) (10.18) 


Zed 





考虑 可 道 性 并 假设 系统 处 于 平衡 状态 : ppp Hp, pzd Pld) SEA 








P pyd dP OLEY, D=POMW|z,=X. T) (10.19) 
Yea 





其 中 “++” 表 示 以 5 而 非 /为 根 节点 的 树 的 消息 。 类 似 地 


POOIKEZ, N= PCOOPOIKFW, Dpwzldi) (10.20) 
Wea 





集中 上 面 各 式 ， 最 终 有 


P(OID= LY pOOPO(|Z,=X, T) (10.21) 
Mea 











些 ， 可 以 自由 地 把 根 节点 放 到 树 的 任何 位 置 上 却 不 改变 伏 然 度 ， 对 与 无 根 树 相 
关联 的 等 价 类 别 ， 我 们 也 可 以 讨论 似 然 度 。 
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图 10-2 以 / 鸭 根 节点 的 树 ， 在 从 ! 到 j 的 枝 上 有 一 个 备 选 根 节点 s 


10.5 ”进化 树 的 优化 和 学 习 算 法 


迄今 为 止 ， 很 少 有 工作 涉及 如 何 根据 分 枝 过 程 和 分 枝 长 度 来 定义 系统 进化 树 
空间 的 先 验 分 布 。 因 此 ， 我 们 可 忽略 先 验 分 布 问题 而 直接 进入 贝 叶 斯 推断 的 第 一 
步 : 估计 MIL 树 。 对 一 棵 给 定 了 拓扑 结构 和 枝 长 的 树 ，10.4 节 中 计算 了 它 的 似 然 度 。 
如 果 拓 扑 结构 给 定 ， 长 度 di 可 以 看 成 模型 的 参数 ， 能 用 ML 法 优化 。 与 HMM 一 样 ， 
一 般 地 说 ，ML 估 计 不 能 解析 地 给 出 ， 但 可 以 用 梯度 下 降 法 、EM 或 Viterbi 学 习 算 
法 的 某 种 形式 近似 求 得 。 作 为 练习 ， 读 者 可 以 自己 推导 出 用 EM 或 梯度 下 降 法 优 
化 枝 长 的 方程 。['”*] 


10.5.1 最 优 拓扑 


拓扑 的 优化 是 第 二 个 问题 ， 这 需要 进行 近似 处 理 。 由 于 可 能 存在 的 树 ， 甚 至 
无 根 树 的 数目 都 是 指数 级 的 ， 搜 索 无 法 穷尽 整个 拓扑 结构 空间 。 参 考 文献 
[178] 描述 了 一 种 启发 式 算法 ， 用 于 在 这 个 空 RERAMA, 这 里 
就 不 详细 回顾 了 。 一 个 广泛 采用 的 启发 式 算法 是 从 一 可 只 有 两 个 物种 的 树 开 始 ， 
一 个 一 个 逐步 地 加 入 新 的 物种 〈 即 观测 序列 )。 在 每 一 nonin 一 个 新 物种 ， 考 
虑 它 在 当前 的 树 中 所 有 可 能 的 位 置 。 选 出 那个 最 有 可 能 的 位 置 ， 然 后 进行 下 一 步 。 
需要 注意 的 是 ,用 这 类 搜索 算法 ， 树 的 最 终 拓扑 结构 依赖 于 观测 序列 的 表示 顺序 。 

无 论 如何 ， 用 ML 法 解决 系统 进化 树 的 问题 ， 在 计算 上 显然 是 十 分 复杂 的 。 
对 系统 进化 的 完整 贝 叶 斯 处 理 更 加 复杂 ， 因 为 除了 借助 先 验 分 布 ， 还 需要 通过 对 
这 些 树 依次 积分 来 估计 一 个 给 定 的 替换 在 过 去 是 村 发 生 的 概率 。 音 次 法 可 以 看 做 
MI 法 的 快速 近似 模型 。 
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10.6 ABE 





次 元 法 的 基 全 恩 想 是 : 最 优 树 是 这 样 一 棵 树 ， 沿 着 它 的 分 枝 发 生 替 换 的 次 数 
最 少 。 在 这 个 意义 上 ， 它 与 MDL (minimum description length， 最 小 描述 长 度 ) 
思想 有 些 联系 。 更 公式 化 的 表述 是 ， 再 次 考虑 树 的 内 节点 的 一 个 分 配 (Xj)， 并 把 此 
记 法 扩展 到 叶 节 点 ， 叶 节点 上 的 字符 是 固定 的 并 由 观测 确定 ， 由 此 定义 分 配 的 音 
ttt (parsimony cost) 为 























EX IN= >, $, XX) (10.22) 
iel jeN* (i) 
换 句 活 说 ， 对 每 个 非 恒 等 替换 都 引入 了 一 个 加 定 代价 ， 而 我 们 的 目标 是 找到 一 种 
分 配 使 树 的 代价 最 小 。 对 于 给 定 的 树 ， 最 小 分 配 也 称 做 最 小 突变 拟 合 (minimum 
mutation fit )。 


为 了 考察 音 浊 法 与 ML 法 的 联系 ， 回 顾 对 于 给 定 的 树 ， 有 一 种 分 配 (X) 的 概率 为 














POOD II TT mao (10.23) 
iel jeN* (i) 
其 负 对 数 概率 是 
ECOD=logp(X)- $, $, logpyy (dy) (10.24) 
iel jen* (i) 
如 果 令 
a XX 
Pax(4= {0 anan BX eX, (10.25 ) 
其 中 41< a< 1， 则 容易 验证 存在 两 个 常数 ax>0 和 有 使 得 
E=ot'+B (10.26) 
事实 上 ，orlog[e(4l-DWI-a]， 有 -IElloga+loglal|， 其 中 | 可 为 树 7 的 边 数 。 换 名 话 


说 ， 给 定 树 的 最 小 突变 拟 合 等 价 于 由 (10.25) 定义 的 同一 拓扑 树 的 ML 系统 进化 
模型 中 给 出 的 Viterbi ( 最 有 可 能 的 ) 分 配 。 因 此 音调 法 可 以 看 做 是 系统 进化 的 ML 
法 的 一 种 近似 。 它 有 一 个 隐 含 的 假设 ， 即 变化 较 少量 在 字符 集 和 时 间 上 是 均匀 的 。 
因此 ， 如 果 灾 化 的 总 数 在 所 考虑 的 进化 时 段 中 很 小 ， 音 盏 法 在 统计 上 是 合理 的 。 
音 责 法 的 递归 算法 为 人 熟知 ， 见 参考 文献 【181 ] 。 在 加 权 音 章法 S 中 ， 我 们 
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可 以 通过 对 每 种 替换 引信 不 同 的 权重 w(Y, X)， 放 松 替 换 在 字符 集 上 必须 均匀 的 假 
设 。 显 然 ， 这 可 以 视 为 在 一 种 特殊 的 ML 环境 下 ， 对 4 中 的 任意 Y 使 得 





eX) 


音 畜 法 在 计算 上 比 ML 法 快 ， 这 大 概 是 它 被 广泛 应 用 的 一 个 原因 。 然 而 ， 当 
进化 很 快 时 ， 音 军法 可 能 导致 错误 。 可 以 用 进化 的 概率 模型 产生 人 工 数据 以 比较 
ML 法 和 音 畜 法 。 对 于 小 样本 ，ML 法 和 音 冀 法 显然 都 可 能 导致 错误 的 系统 进化 结 
论 。 然 而 对 于 大 样本 ，ML 法 经 常 能 够 构造 出 正确 的 系统 进化 树 ， 而 音 冀 法 却 不 
总 是 如 此 。 


Pyx(dj)= (10.27) 














10.7 扩 展 


以 上 我 们 回顾 了 构造 系统 进化 树 的 基本 方法 。 值 得 注意 的 是 ， 构 造 系统 进化 
树 是 贝 叶 斯 推断 方法 的 又 一 应 用 。 构 造 系统 进化 树 的 第 一 步 要 建立 可 操作 的 进化 
过 程 概率 模型 。 马 尔 可 夫 蔡 换 模型 构成 了 这 样 一 类 模型 。 月 前 主要 采用 的 系统 进 
化 树 的 构造 方法 〈 包括 音 冀 法 )， 都 是 在 这 样 一 类 模型 里 进行 ML 推断 的 特例 或 近 
似 。 系 统 进化 树 的 构造 算法 在 计算 上 很 困难 ， 特 别 是 在 需要 研究 大 量 可 能 的 树 的 
情形 下 。 
进化 的 HMM 和 概率 树 模型 有 一 些 互补 的 优 缺 点 。 由 HMM 产 生 多 重 序列 比 对 
是 进化 重 构 算法 的 起 点 。 需 要 利用 进化 模型 正则 化 HMM ， 即 通过 处 理 多 重 序列 
比 对 中 每 列 的 原始 计数 得 到 生成 概率 ， 将 其 做 细微 调整 用 于 大 规模 数据 库 的 同 源 
性 搜索 。 很 明显 ， 有 一 个 研究 方向 把 它们 结合 起 来 ， 即 交叉 树 、 序 列 比 对 、 系 统 
进化 以 及 结构 ，'”*" 31 以 及 提出 允许 插 人 和 缺失 的 进化 过 程 的 概率 模型 ， 并 保证 
它们 在 计算 上 的 可 操作 性 ( 参见 附录 C 的 树 结构 HMM )。 
单一 的 马尔 可 夫 蔡 换 过 程 并 不 是 一 个 好 的 进化 模型 ， 其 原因 不 仅 包括 在 本 章 
里 讨论 过 的 那些 ， 而 且 还 由 于 模型 在 很 长 的 进化 历史 中 只 考虑 了 一 次 平衡 分 布 。 
这 与 观测 是 不 一 致 的 ， 而 且 与 用 Dirichlet 混 合 分 布 〔 参 见 附录 D ) 作为 HMM 生 成 
概率 的 先 验 分 布 等 也 不 一 致 。 经 过 模型 的 驰 瑰 时 间 (relaxation time) 以 后 ,简单 
的 马尔 可 夫 模 型 不 能 产后 分布 的 聚 类 和 Dirichlet 混 合 分 布 的 不 同 分 量 。 为 了 解释 
可 能 的 聚 类 ， 必 须 利 用 这 个 简单 模型 跨越 一 个 较 短 的 转变 期 ， 或 转移 到 更 高 层次 
的 进化 模型 。 

高 层次 的 进化 模型 应 该 是 什么 样子 呢 ? 想像 我 们 可 以 观察 到 在 进化 过 程 的 不 
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同时 段 ( 如 每 1 亿 年 ) 产生 的 多 重 序列 比 对 。 在 每 个 观测 时 段 ， 比 对 的 列表 示 从 
可 能 列 的 复杂 分 布 中 抽取 的 一 个 样本 。 正 是 这 一 分 布 在 随 着 时 间 进 化 ， 因 此 在 这 
类 更 高 层次 的 模型 中 ， 进 化 在 分 布 不 断 演化 所 构成 的 更 高 层次 的 分 布 上 发 生 。 这 
类 模型 的 一 个 简单 例子 可 以 按 如 下 方法 构造 。 可 以 想像 原始 生成 分 布 (t= 0 h 
是 一 个 Dirichlet 混 合 分 布 P(P)= Yi AD, (P)， 而 且 存 在 一 个 简单 的 在 8 上 操作 的 
马尔 可 夫 痊 换 过 程 ( 可 能 还 有 在 a 和 4 上 操作 的 附加 过 程 )。 在 时 刻 ， 这 个 分 布 变 
成 P(P)= ,入 Dasor(P)。 例 如 使 用 PAM 和 矩阵 葵 换 和 模型， 如 果 Q 等 于 仅 在 位 置 :上 取 
值 为 1 表示 字符 X ) 的 二 值 单位 向 量 ， 那么 在 时 刻 的 9 与 相应 的 PAM 和 矩阵 的 第 i 
列 相对 应 [ 表示 px(D ] 。 这 样 一 个 模型 与 经 过 Dirichlet 混 合 分 布 正 则 化 的 HMM 生 
BURA Be, |) 其 中 Dirichlet 混 合 分 布 与 PAM 和 矩阵 中 的 列 向 量 有 关 。 
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11.1 形式 文法 的 介绍 


本 章 讲述 最 后 一 种 序列 的 概率 模型 ， 随 机 文法 (stochastic grammar )。 随 机 
文法 的 基本 思想 是 第 3 章 的 简单 贷 子 模型 和 HMM 的 直接 扩展 。 

第 1 章 简要 提 到 过 ， 形 式 文法 (formal grammar) 最 初 是 为 了 建立 自然 语言 模 
型 而 发 展 起 来 的 ， 大 约 在 同一 时 期 ， 沃 森 和 克 里 克 发 现 了 DNA 的 双 螺 旋 结构 。 从 
那 时 起 ， 文 法 就 被 广泛 应 用 于 分 析 和 设计 计算 机 语言 和 编译 器 。'” 文法 是 对 字符 
串 建 模 的 很 自然 的 工具 ， 最 近 也 被 应 用 到 生物 序列 研究 中 。 事 实 上 ， 计 算 分 子 生 
物 学 中 的 很 多 问题 可 以 用 形式 文法 研究 。! ?99?] 这 里 ， 随 机 文法 的 基本 目标 是 通 
过 机 器 学 习 的 方法 找到 数据 对 应 的 文法 。 

本 章 将 回顾 形式 文法 的 基本 理论 ， 包 括 几 类 不 同 的 文法 、 它 们 的 特性 、 乔 姆 
斯 基层 次 ( Chomsky hierarchy) 及 其 同 HMM 的 联系 。 在 11.3 节 中 ， 我 们 将 示范 随 
机 文法 是 如 何 应 用 到 生物 序列 中 的 ， 特 别 如 何 针对 RNA 分 子 应 用 上 下 文 无 关 文 法 
(context-free grammar )。 接 下 来 的 三 节 集 中 讲述 先 验 、 似 然 度 及 学 习 算法 。 最 后 
两 节 讲述 它们 的 主要 应 用 。 























11.2 ”形式 文法 和 乔 姆 斯 基层 次 


11.21 形式 语言 
先 从 字符 集 4 开 始 。4 上 所 有 长 度 有 限 的 字符 种 构 成 的 集合 表示 为 4*。 包 表示 空 
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串 。 一 种 语言 是 4* 的 子 集 。 在 某 种 意义 上 ， 可 以 说 是 序列 中 的 启动 子 和 接纳 体位 点 
构成 了 定义 在 DNA 字 符 集 上 的 一 种 语言 。 这 个 定义 本 身 用 处 不 大 ， 除 非 我 们 能 确 
定语 言 的 生成 识别 和 分 类 的 简单 规则 。 文法 可 以 看 做 生成 一 种 语言 的 规则 的 集合 。 


11.2.2 形式 文法 


可 以 生成 并 日 只 能 生成 所 有 句法 正确 的 串 ， 其 所 遵循 的 规则 集合 称 为 形式 文 
法 。 一 个 形式 文法 G 包 含 : 一 个 字符 集 4， 称 为 终结 符 ; 变量 的 字符 集 V， 其 中 的 
变量 也 称 为 非 终结 符 ; 以 及 一 个 产生 式 规则 (production rule) 组 成 的 集合 R。 在 非 
终结 符 中 有 一 个 特殊 的 变量 * 表 示 开 始 变量 。 每 个 产生 式 规则 包含 一 对 Co, 6)， 常 
常 记 为 or* 有 8， 其 中 和 有 是 (4U 从 "中 的 元 素 。or*p 中 的 箭头 可 以 读 做 “产生 ”或 
“扩展 为 "。 我 们 用 希腊 字母 表示 由 非 终结 符 和 终结 符 组 成 的 串 。 因 此 在 通常 意义 
上 ，c 和 有 是 由 字母 和 变量 组 成 的 中 。 另 外 ， 设 定 w 至 少 包 含 一 个 非 终 结 符 。 给 定 C 
和 《4UY) 上 的 两 个 串 ? 和 6， 如 果 存 在 串 的 有 限 序 列 玉 cao Ya 
ad (也 写 做 y= 6)， 其 中 的 每 一 步 都 对 应 R 中 的 产生 式 规则 的 一 次 应 用 ， 那 么 就 
称 5 可 以 从 1 导出 。 由 文法 6 生成 的 语言 i=L(O) 是 可 以 从 开始 状态 导出 的 全 部 终结 符 
串 的 集合 。 

例如 ， 考 虑 由 4= |X, Yl, v=|s}, Re 9 一 X5X, s>YsY, s>X, s>Y, sO} 
定义 的 文法 。 字 符 串 XYYX 可 以 由 补 始 的 串 s 如 下 导出 : * 一 XsX 一 XYsYX 一 XYYX， 
依次 应 用 第 一 、 第 二 和 第 四 条 产生 式 规则 。 更 一 般 地 ， 容 易 证 明 G 生 成 4 上 的 全 部 
EX (palindrome ) 的 集合 。 回 文 是 向 前 读 或 向 后 读 都 相同 的 字符 串 。 现 在 我 们 
可 以 定义 几 种 不 同类 型 的 文法 和 乔 姆 斯 基层 次 。 乔 姆 斯 基层 次 就 是 按照 复杂 人 性 和 
表达 能 力 的 级 别 对 文法 进行 的 分 类 。 


11.2.3 乔 姆 斯 基层 次 
表 11-1 总 结 了 乔 姆 斯 基层 次 和 它 的 特性 。 

































































表 11-1 文法 、 产 生 式 规则 及 其 等 价 关 系 一 览 表 






































正则 文法 上 下 文 无 关 文 法 上 下 文 相 关 文法 递归 可 枚 举 文法 
产生 式 规 则 u>Xv ow axy+apy 所 有 
u>X “=X 
Us Us us.” 
闭 包 性 质 n, 无 mn ,无 所 有 
等 价 的 自动 机 有 限 状态 自动 机 下 推 自动 机 线性 有 界 的 图 灵机 | 图 灵机 
特征 语言 回 文 复制 语言 所 有 
相关 性 特征 无 长 程 相关 性 KE 交叉 所 有 











正则 文法 





最 简单 的 一 类 文法 是 正则 文法 (re 
产生 式 规则 的 左边 是 单个 变量 ， 丰 过 则 是 字符 集中 的 单个 字符 后 最 多 再 加 上 一 个 
变 昌 。 央 此 哩 只 能 在 一 个 方向 上 增长 。 准 确 地 说 ， 如 果 所 有 的 产生 式 规 则 是 zx 一 *Xv、 
aXe OH, 则 文法 G 是 正则 的 (或 右 线性 ), 其 中 wu 利 v 是 单个 的 非 终结 符 。 





如 果 一 种 语言 可 以 由 了 





E 则 文法 牛 成 ， 则 称 它 是 正则 语言 
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gular grammar, RG )。 在 正则 文法 中 ， 一 条 








E 则 语言 也 可 以 用 别 的 














方式 描述 ， 如 正则 表达 式 就 可 以 很 有 效 地 识别 正则 语言 ， 尽 管 它 的 表达 能 力 有 限 。 





上 下 文 无 关 文法 
止 则 文法 是 上 上 下文 无 关 文 法 《context-free grammar, CFG) 的 特例 。 KFX 
无 关 的 意思 是 使 用 表达 式 蔡 换 变量 时 ， 并 不 依赖 于 被 蔡 换 的 变量 的 上 下 文 。 准 确 
地 说 ， 如 果 R 中 的 所 有 产生 式 规则 都 是 x*5 的 形式 (其 中 是 单个 的 非 终结 符 )， 
则 文法 G 是 上 下 文 无关 的 。 如 果 一 种 庄 言 可 以 由 上 下 文 无 关 文 法 生成 ， 则 称 其 为 
































上 下 文 无 关 的 语言 。 上 下 文 无 关 文法 可 
form )， 例 如 乔 姆 斯 基 范 式 或 格雷 巴赫 ( Greibach ) 范式 。 如 果 一 种 上 下 文 无 关 文 
法 的 每 个 产生 式 规则 都 是 以 下 三 种 形式 之 一 ; (1) sØ, (2) wow, Ket, v, 


w 是 非 终 结 符 ,，(3) u>X, J 
W2) 中 的 v 和 w 必 须 不 同 于 s。 
十 面 提 到 的 回 文 文法 是 上 








下 文 无 关 的 。 例 如 ， 复 制 语言 (copy 1 








HE OTE. AS, MM Rs OER, 


本 以 用 规范 的 形式 表述 ， 称 为 范式 (normal 








F 文 无 关 的 但 本 是 正则 文法 。 上 下 文 无 关 文 法 常常 
用 于 定义 计算 机 语言 的 句法 以 及 构造 编译 器 。 可 以 想到 ， 并 非 所 有 的 语言 都 是 上 


anguage ) 就 不 是 上 下 文 无 关 的 。 一 个 复制 








诺言 包括 所 有 这 样 的 字符 串 ， 其 中 后 


个 复制 语言 (对 应 于 DNAd 








上 下 文 相关 文法 


在 非 F 下 文 无 关 的 文法 中 ， 我 们 可 


和 的 直接 重复 )。 尽 管 复制 语言 看 起 来 与 国文 类 似 ， 但 
它们 确实 需要 -类 更 复杂 的 文法 。 上 下 文 无 关 文法 也 被 用 于 对 自然 语言 建 模 ,但 
是 山 于 自然 语言 不 是 下 下 文 无 关 的 ， 该 文法 取得 的 效果 很 有 限 。 


半 与 前 一 半 完 全 相同 。XXYXXY 就 属于 一 











[以 定义 上 下 文 相关 文法 ( context-sensitive 








grammar, CSG) 的 子 类 。 如 果 文 法 中 
式 ， 其 中 X 在 4 中 , "840 ( X 可 以 在 上 下 文 a-7 中 被 蔡 换 为 8)， 则 称 其 为 上 下 文 


相关 文法 。 另 多 











如 果 -种 语言 可 


， 如 果 s 不 出 现在 任 和 


所 有 的 产生 式 规则 都 二 waXy 一 op? 这 样 的 形 


产生 式 规则 的 右边 ， 则 允许 有 规则 s 一 名 。 





以 时 上 下文 相关 文法 牛 成 ， 则 称 它 基 上 下 文 相关 语言 。 可 以 证 明 


生 X 应 该 是 变量 ， 它 在 yY 中 而 不 是 在 4 中 。 一 一 译 者 ; 


注 
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复制 文法 是 上 下 文 相关 的 而 不 是 上 下 文 无 关 的 。1 
规则 的 右边 至 少 要 和 左边 一 样 长 。 


递归 可 枚 举 文法 





上 下 文 相关 文法 的 特点 是 产生 式 


这 是 范围 最 广 的 文法 ,没有 上 述 的 任何 限制 。 递 归 可 校 举 (recursively 


enumerable ) 指 的 是 : 如果 一 个 词 属 于 这 种 语言 ， 


那么 它 的 导出 过 程 总 是 可 以 在 


有 限 的 时 间 内 通过 图 灵机 获得 ， 只 要 穷 举 所 有 可 能 〈 可 数 的 ) 的 推导 就 可 以 了 。 
递归 可 枚 举 比 递归 弱 : 一 般 来 说 ， 无 法 在 有 限时 间 判 定 一 个 词 是 否 属于 一 种 语言 ， 











例如 产生 常见 的 停机 问题 。 乔 姆 斯 基层 次 指出 以 
增 的 序列 ， 也 就 是 


上 几 个 主要 文法 类 别 构成 严格 递 





RG c CFG c CSG c REG (11.1) 


所 有 的 包含 关系 都 是 严格 的 ， 其 中 RG= 正 则 文法 ， 





CFG= 上 下 文 无 关 文法 ，CSG= 


上 下 文 相 关 文 法 ，RBG= 递 归 可 枚 举 文法 。 在 乔 姆 斯 基层 次 的 较 高 层次 允许 有 更 
通用 的 规则 ， 但 是 也 通过 排除 了 更 多 的 字符 串 而 对 语言 有 更 多 的 限制 。 








11.2.4 二 义 性 和 语法 分 析 


一 个 导出 过 程 可 以 被 排列 成 一 个 树 形 结构 ， 称 为 分 析 树 〈 parse tree )， 它 反映 


了 序列 的 句法 结构 。 分 析 可 以 自 上 而 下 进行 ， 也 可 


以 自 下 而 上 进行 。 如 果 序 列 拥有 


不 止 一 标 分 析 树 ， 则 称 它 是 二 义 性 的 。 二 义 性 (ambiguity ) 的 概念 对 于 编译 器 的 设 
计 很 重要 。 二 义 性 使 得 语法 分 析 复 杂 化 ， 它 一 方面 使 分 析 算 法 复杂 化 ， 另 一 方面 可 
能 使 分 析 树 数 量 随 着 被 分 析 的 字符 串 的 长 度 呈 指数 增长 。 有 一 些 用 于 分 析 特殊 文法 
的 算法 和 复杂 性 研究 结果 。 如 果 所 有 产生 式 规则 的 右边 至 多 包含 一 个 非 终结 符 ， 那 
么 就 称 该 文法 是 线性 的 。 对 于 线性 的 上 下 文 无 关 文法 存在 快速 分 析 算 法 。 一 般 说 来 ， 
在 乔 姆 斯 基层 次 中 ， 较 高 层 语言 的 识别 与 序列 文法 分 析 需 要 更 大 的 计算 量 。 














1.25 MEHE 





乔 姆 斯 基层 次 中 的 每 个 文法 类 对 于 很 多 语言 操作 都 是 封闭 的 或 者 说 稳定 的 ， 
Blan “FE” (LUL), “BRR” (LL), “EA” (Lo EXX “4 (LpA 





“LOL RHA, WL PRK 
1.2.6 相关 性 





“ 补 ” 和 “ 交 ” 不 是 封 闲 的 。 





还 可 以 从 生成 模式 和 自动 机 这 两 个 角度 考察 文法 。 正 则 文法 可 以 有 整体 的 模 
式 ， 例 如 形成 XYXYXYXY 这 样 的 交替 字符 串 。 像 HMM 一 样 ， 正 则 文法 不 能 处 理 
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字符 串 中 的 长 程 相关 性 。 上 下 文 无 关 文法 可 以 对 一 定 的 简单 长 程 相关 性 建 模 ， 例 
WREATH RHE (nested dependency )。 如 果 所 表示 相关 性 没有 相互 交叉 ， 那 么 它 就 
是 嵌 套 的 。 嵌 套 相 关 性 是 上 下 文 无 关 语言 的 特征 ， 例 如 回 文 ， 其 中 第 一 个 字符 必 
须 和 最 后 一 个 匹配 ， 第 二 个 必须 和 倒数 第 二 个 匹配 ， 等 等 。 如 果 相 关 性 有 交叉 ， 
































例如 复制 语言 ， 那 么 就 需要 用 到 上 下 文 相关 语言 ， 因 为 在 上 下 文 相关 语言 的 推导 


中 必须 自由 移动 非 终结 符 ， 只 有 这 样 才能 实现 有 交叉 的 相关 关系 。 
11.2.7 自动 机 





理解 乔 姆 斯 基层 次 的 最 后 一 种 方法 是 考察 与 每 种 语言 对 应 的 自动 机 
(automata )。 对 此 这 里 不 深入 研究 细节 问题 ， 只 是 给 出 结论 。 正 则 文法 对 应 于 有 








限 状态 自动 机 (finite state automata, FSA )， 通 常 每 个 状态 对 应 文法 





和 的 一 个 非 终 


结 符 ， 像 HMM 一 样 。 在 这 种 自动 机 中 ， 除 了 状态 自身 外 没有 任何 储存 机 制 一 一 


所 有 的 信息 都 必须 “ 硬 编码 "。 上 下 文 无 关 文法 对 应 于 下 推 自动 机 


(pushdown 


automata, PDA )},， 它 和 有 限 状 态 自动 机 类 似 ， 但 是 有 一 个 存储 栈 。 在 每 个 时 刻 ， 
只 有 栈 顶 是 可 以 访问 的 。 这 种 单 点 存储 的 机 器 可 以 通过 每 次 对 一 个 字符 进行 进 栈 
或 出 栈 操作 实现 回 文 。 这 种 自动 机 不 能 处 理 交 叉 相关 性 ， 因 为 它 在 每 个 时 刻 都 只 
能 访问 栈 顶 。 上 下 文 相关 语言 对 应 于 可 移动 域 线性 有 界 的 图 灵机 ， 其 可 移动 域 长 
度 与 输入 /输出 串 的 长 度 成 正比 。 需 要 在 移动 区 域 上 左右 移动 ， 以 便 复制 和 处 理 交 
又 相关 性 。 而 最 一 般 的 递归 可 枚 举 语言 对 应 于 可 移动 域 无 边界 的 图 灵机 (Turing 






































machine, TM )， 这 也 是 通用 计算 机 的 标准 模型 。 
11.2.8 ”随机 文法 和 HMM 


到 现在 为 止 ， 我们 考虑 的 都 是 确定 文法 。 随 机 文法 是 通过 在 产生 式 规则 上 添 
加 概率 结构 得 到 的 。 每 个 产生 式 规则 a»B 都 被 赋予 一 个 概率 P(a 一 Bp)， 并 使 
得 过 pbP(o-* 有 =1。 因 此 ， 随机 文法 最 大 的 特征 是 可 以 被 看 做 是 其 所 对 应 的 语言 











〈 亦 即 由 底层 隐 含 的 确定 文法 生成 的 语言 ) 的 一 个 具有 一 套 参数 w 的 概 
现在 应 该 可 以 清楚 地 看 出 ，HMM 可 以 看 做 一 个 随机 正则 文法 





率 生成 模型 。 


(stochastic 


regular grammar, SRG )。 为 了 说 明 这 一 点 ， 只 要 把 HMM 中 由 字符 X 生 成 的 从 状态 





5 到 si 的 转换 用 SRG 中 概率 为 tjeix 的 产生 式 规则 sj 一 Xs 替换 就 可 以 了 。 





这 样 ， 随 机 


上 下 文 无 关 文法 〈 stochastic context-free grammar, SCFG ) 构成 了 更 一 般 的 一 类 模 
型 。 在 下 面 的 章节 中 ， 它 们 将 被 用 于 对 RNA 序 列 的 结构 建 模 ， 也 可 以 看 做 第 3 章 
中 的 角 子 模型 的 进一步 推广 。 这 种 SCFG 包 含 了 一 种 每 面 两 个 字符 的 援 子 。 在 最 











简单 的 RNA 模 型 中 ， 这 两 个 字符 反映 了 碱 基 的 互补 性 质 。 因 而 ，RNA 般 子 有 四 个 
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面 ， 类 似 一 个 简单 的 DNA 般 子 ,但 四 个 面 上 的 字符 是 AU、UA、CG 和 GC (不 包 
括 GU 和 UG ) (参见 图 11-1)。 

















图 11-1 DNA 中 沃 森 一 克 里 克 碱 基 对 互补 性 的 图 示 


TERNAT, RERE CU) CET RRR EGE (T), 


11.2.9 图 文法 


以 上 已 经 研究 了 普通 字符 集 上 的 文法 。 我 们 还 可 以 研究 更 一 般 的 字符 集 ， 其 
中 的 “字符 ”是 图 或 者 图 像 处 理 中 的 像素 图 形 。 在 图 文法 〈 graph grammar) 中 
( 见 参 考 文献 [165,158 ] 及 其 列 出 的 其 他 论文 ;， 人 们 必须 详细 确定 ， 在 推导 过 程 
是 如 何 相互 连接 起 来 的 。 图 文法 有 相当 强 的 表达 能 力 ， 也 是 生物 大 分 子 的 二 
级 结构 和 三 级 结构 建 模 的 自然 选择 。 但 是 迄今 为 止 ， 在 这 个 方面 还 没 做 什么 工作 。 
一 个 关键 的 问题 是 对 一 般 的 图 文法 〈 甚至 对 特定 类 型 的 图 文法 ) 尚 缺 少 有 效 的 学 
习 算 法 。 
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11.3 ”文法 在 生物 序列 中 的 应 用 








大 们 希望 最 终 能 在 基因 、 染 色 体 甚至 基因 组 的 尺度 上 建立 文法 模型 。 毕 竟 ， 
在 所 有 可 能 的 长 度 相近 的 DNA 序 列 中 ， 基 内 组 只 占 了 很 小 的 一 部 分 。 但 是 作为 开 
始 ， 必 须 考 虚 包 含 较 少 文法 的 较 简 单 的 例子 ， 例 如 RNA 二 级 结构 和 回 文 。 


























11.3.1 


RNA 二 级 结构 
生物 大 分 子 的 很 多 成 分 由 RNA 构 成 。 


核 精 体 RNA(rCRNA) 、 剪 接 体 中 的 小 分 子 细 


RNA 二 级 结构 和 生物 学 回 文 
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重要 的 几 类 RNA 包 括 转移 RNA(tRNA)、 
抱 核 RNA(snRNA)、 信 使 RNA(mRNA) 





以 及 各 种 类 别 的 肉 含 子 。 另 外 ， 还 包括 一 些 在 试管 中 分 离 出 的 具有 特殊 功能 ( 诸 
如 蛋白 质 结合 和 催化 功能 ) 的 小 RNA 分 子 家 系 。[109356469551 





尽管 RNA 通 常 是 单 链 的 ， 但 由 互补 碱 基 对 形成 的 螺旋 可 





LARS HARNA LSTA , 





从 而 构成 特殊 的 三 维 结构 。 从 RNA 链 到 功能 分 子 的 折 秋 过 程 主要 由 沃 森 一 克 里 克 
碱 基 对 A-U 和 G-C 配 对 决定 ， 在 某 种 程度 上 也 受 G-U 及 更 少见 的 G-A 配 对 影响 。 
RNA THAR ERE (stem), FH (loop), cus (bulge) 等 二 级 结构 ， 而 











序列 中 相互 远离 的 核 前 





酸 在 某 些 地 方 发 生 相互 作 用 则 形成 伪 结 (pseudoknot )。 1] 








这 些 配 对 常常 有 典 套 的 结构 ， 
考虑 RNA 和 其 他 分 子 中 的 生物 学 加 


生物 学 回 文 





























有 很 多 RNA/DNA 回 文 的 例子 ， 例 如 ， 








面 描述 过 的 回 文 略 有 差别 ， 
如 AGAUUUCGAAAUCU 是 一 个 RNA 回 
由 于 DNA 是 双 螺 旋 互 神 




















更 复杂 的 文法 来 建 模 ( 从 技术 上 来 说 ， 有 


为 从 两 端 开始 配对 的 字符 并 不 相 


t 不 能 用 正则 语言 或 HMM 有 效 建 模 。 下 面 首先 
文 问题 。 





蛋白 质 结合 位 点 回 文 。 生 物 学 回 文 与 前 


同 ， 而 是 互补 的 。 例 











文 。 在 DNA 中 这 样 的 回 文 被 称 为 反 向 重复 。 
结构 ， 螺 旋 中 一 股 上 的 回 文 的 每 一 半 在 另 一 
镜像 。 因 此 ， 如 果 回 文 串 在 一 股 上 从 左 到 右 读 ， 那 么 在 另 一 股 1 
到 相同 的 字符 串 。RNA 回 文 的 长 度 是 任意 的 ， 因 此 可 能 需要 用 


RERE 
上 可 以 从 右 到 左 读 
上 下 文 无 关 文法 或 





























al ae I< Be PRA E 








文 可 以 用 正则 文法 建 








模 )。 RNA 回 文通 常 折 伍 产生 发 卡 ( 茎 - 环 ) 


形成 RKNA 回 文 的 一 个 诸 法 如 下 : 


SPASUIUSAICSGIGsCIO 


在 一 行 中 列 出 了 所 有 可 选 的 产生 式 规则 ， 





$544 (hairpin structure )。 


(11.2) 


FAR “| ”分 开 。 可 以 按 如 下 过 程 产 生 











个 回 





: S>ASU>AGsCU-AGUSACU, 


等 等 。 生 成 的 分 析 树 能 反映 碱 基 的 配 














对 情况 (参见 图 11-2 )。 实 际 的 RNA 天 











文 











不 会 破坏 二 级 结构 。 其 些 碱 基 对 不 匹配 ， 


以 被 容 如 的 。 为 此 也 有 必要 引入 概率 。 发 卡 结构 的 侍 部 有 不 配对 的 碱 基 凸 起 也 是 
以 在 发 卡 结构 的 顶端 形成 180 度 的 转弯 。 通 党 
会 有 至 少 3 到 4 个 不 配对 碱 基 构成 的 环 ， 有 时 这 个 环 还 会 长 得 多 。 同 样 地 ，DNA 辐 





很 常见 的 。RNA 的 邓 韧 性 一 般 不 足 


fF 不 是 完美 的 ， 但 个 别 不 匹配 的 碱 基 对 
例如 UG ,与 其 他 的 不 配对 相 比 还 是 可 
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文 的 两 个 半边 也 可 能 被 隔 开 相 当 大 的 距离 。 所 有 这 些 特点 都 可 以 被 包括 到 文法 中 ， 
但 是 会 使 规则 复杂 化 。 

上 和 面 的 文法 能 产生 对 应 于 单个 回 文 的 趾 。 而 DNA 和 RNA 都 含有 大 量 的 复合 回 
文 ， 即 连续 的 条文 和 递归 的 回 文 。 连 续 的 回 文 就 是 两 个 或 更 多 的 回 文 一 个 接 一 个 唐 
并 户 地 出现。 递归 的 回 文 就 是 一 个 回 文 被 谋 套 在 另 一 个 回 文 内 部 。 与 递归 回 文 对 应 
的 RNA 二 级 结构 是 一 个 蔡 ， 在 它 的 侧面 凸 起 了 另 一 个 荃 。 出 人 意料 的 是 ， 得 到 递归 
回 文 很 简单 :只 需要 增加 一 条 产生 式 规则 s 一 ss。 变 量 s 的 复制 允许 在 一 个 已 存在 的 
回 文中 的 任何 地 方 生成 个 新 加 文 。 对 应 的 文法 所 产生 的 结构 是 有 分 支 的 蔡 ， 它 是 
一 种 规范 的 二 级 结构 。 最 著名 的 例子 可 能 是 tRNA 的 三 叶 草 结构 。 还 有 其 他 许多 由 
环 和 典 套 的 蔡 组 成 结构 的 例子 ， 元 其 是 在 IRNA 中 。 递 归 回 文 文法 是 上 下 文 无 关 的 ， 
但 与 简单 回 文 不 同 ， 它 是 有 歧义 的 。 反 向 重复 UGAUCA-UGAUCA 既 可 以 分 解 成 单 
个 的 发 卡 ， 也 可 以 当成 两 个 或 更 多 的 肩 并 局 的 车， 其 长 度 不 必 相同 。 可 变 的 分 析 树 
对 应 于 可 变 的 二 级 结构 。 结 构 二 义 性 使 同一 个 RNA 元 件 具有 不 同 的 角色 ， 这 是 已 有 
例子 的 。DNA 语 音 学 中 的 其 他 二 义 性 例子 包括 重 秋 基因 一 在 HIV 病 毒 中 ， 基 因 组 
的 某 些 片段 能 编码 -一 个 以 上 的 基因 ， 因 为 它们 使 用 了 有 歧义 的 起 始 位 点 和 阅读 框 。 


11.3.2 RNA 的 上 下 文 无 关 文 法 


一 般 说 来 ， 一 个 用 于 RNA 的 SCFG 需 要 如 下 类 型 的 规则 ; 
1. 配对 生成 规则 ， 对 于 沃 森 一 点 里 克 配 对 ， 该 规则 为 
























































uAvUIUvyAICvGIG»C (11.3) 
对 于 比较 罕见 的 配对 按 稀有 性 排序 ) 
u GvUIGvA (11.4) 


2. 在 左边 牛 成 单个 字符 ( 不 配对 碱 基 ) 
u—AviCviIGvlUy (11.5) 


3. 在 右边 生成 单个 字符 〔 不 配对 碱 基 ) 





u—vAlvClyGlU (11.6) 
4. 生成 单个 字符 〔 不 配对 碱 基 ) 


uAICIGIU (11.7) 
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5. 分 支 《 或 分 又 ) 


u>vw (11.8) 


6. MER (或 跳 过 ) 


wv (11.9) 


产生 式 规 则 左边 的 非 终 结 变量 ， 例 如 4a， 扮演 着 HMM 状 态 的 角色 ， 必 须 用 4 ， 
xz 等 编号 。 如 同 HMM， 这 些 非 终结 变量 可 以 分 为 三 类 : 匹配 、 插 入 、 删 除 或 
号 皮 ， 每 个 都 有 不 同 的 概率 分 布 。 匹 配对 应 于 RNA 多 重 序列 比 对 中 重要 的 列 。 它 
与 HMM 的 主要 差别 在 于 某 些 状 态 有 生成 两 个 配对 符号 的 可 能 。 对 于 插 人 状态 对 
应 的 一 个 非 终结 符 w，x-*Xa 形 式 的 产生 式 规 则 允许 有 多 个 插入 ， 环 区 需要 用 它们 
来 调整 环 的 长 度 。 图 11-2 显 示 了 了 到 自 参 考 文献 [460 ] 的 一 个 CFG RNA 文 法 的 例 
































a 产生 式 规划 bF 
Pi s u, m, >G ig, 5 = Cu, SCAG = CAu UG 

m Cm G y >G. S CAUu Au UG 之 CAUCuGAmwUG 
m SAn, m SU, = CAUCAu,GAu,UG = CAUCAGm GAUG 
m, Au; U, ty A ugU, = CAUCAGGGAWUG 
i, Py ty, Hyg —C mo G, = CAUCAGGGAAn,,UUG 
u, UA, ty >G un C, = CAUCAGGGAAGu,CUUG 
uy Cg G, ap SA up U, = CAUCAGGGAAGAu,„UCUUG 
ts SA u, ia =U my = CAUCAGGGAAGAUa„UCUUG 
u, =U up “>C ! => CAUCAGGGAAGAUCUCUUG 

c 分 析 树 d. 二 级 结构 








Fran ~D 


公 JX 


CAUCAGGGAAGAUCUCUUG 





图 11-2 简单 的 上 下 文 无 关 文 法 及 序列 CAUCAGGGAAGAUCUCUUG 的 推导 过 程 


a. 文法 中 的 产生 式 规 则 集合 ， 其 中 * 是 始 始 符号 ， 内 到 xi 是 非 终结 符 。b. 推导 过 程 。c. 推导 过 程 对 应 
的 分 析 树 。d. 反映 了 分 析 树 结构 的 二 级 结构 。 摘 自 参考 文献 [460 ] 。 
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子 ， 图 中 同时 显示 了 一 个 序列 的 文法 生成 过 程 、 它 的 分 析 树 以 及 二 级 结构 。 

当然 上 面 列 出 的 规则 类 型 是 元 余 的 ， 对 RNA 建 模 并 不 需要 用 到 所 有 各 种 类 型 
的 规则 的 组 合 和 所 有 类 型 的 非 终结 符 。 参 考 文献 [156 ] 中 的 RNA 协 方差 模型 尽 
管 名 称 不 同 ， 但 其 本 质 上 与 SCFG 模 型 等 价 ， 其 中 只 用 到 了 下 面 的 组 合 : 

* 具有 成 对 生成 、 左 边 单个 生成 和 右边 单个 生成 的 匹配 状态 ; 

。 具有 左边 单个 生成 和 右边 单个 牛 成 的 插入 状态 ; 

删除 和 分 支 状态 。 

当然 ， 在 文法 的 数量 、 训 练 所 需 时 间 以 及 是 否 对 数据 过 拟 合 或 欠 拟 合 这 几 个 
方面 ， 该 模型 需要 做 一 些 折 中 。 


11.3.3 超越 上 下 文 无 关 文 法 


迄今 为 止 我 们 还 停留 在 上 下 文 无 关 文 法 、 下 推 自动 机 和 嵌 套 相关 性 的 领域 
肉 。 很 多 简单 的 进化 操作 ， 例 如 插入 、 删 除 和 替换 都 能 用 上 下 文 无 关 文法 单独 
表达 。 然 而 ， 在 核酸 字符 串 的 区 块 上 的 其 他 遗传 操作 一 一 例如 重复 、 反 向 、 易 
位 及 转 座 ~ 一 产生 了 语言 中 的 交叉 相关 性 ， 因 此 不 能 用 上 下 文 无 关 文法 正确 表 
达 。 直 接 重复 在 DNA 中 相当 普遍 ， 其 本 质 上 构成 了 一 种 复制 语言 。 据 此 ， 它 们 
可 以 用 土 下 文 相关 文法 建 模 。 相 关 性 的 交叉 也 可 以 在 生物 分 子 的 二 级 结构 和 三 
级 结构 中 见 到 。 这 里 的 一 个 例子 是 RNA 结 构 中 的 伪 结 。 
前 面 已 提 及 ， 当 一 个 单 链 环 区 和 环 外 的 一 个 互补 序列 构成 沃 森 一 克 里 克 碱 基 
对 时 出 现 伪 结 。 伪 结 可 以 看 成 是 交叉 的 而 非 嵌 套 的 回 文 。 例 如 AACCGGUU 可 以 
看 成 两 个 回 文 的 嵌 套 : AAUU 和 CCGG。 从 另 一 方面 看 ，AACCUUGG 是 一 个 伪 
结 ， 因 为 这 些 互 补 的 碱 基 对 相互 交叉 。 伪 结 这 样 的 特征 被 归 类 为 不 规范 的 二 级 结 
构 。 前 面 的 上 下 文 无 关 文 法 不 足以 对 伪 结 建 模 。 伪 结 和 直接 重复 一 样 ， 可 以 用 上 
下 文 相关 文法 描述 。 最 后 必须 提 一 下 ，DNA 语 言 可 以 看 成 是 其 他 几 种 语言 的 重合 
或 交叉 ,例如 转录 、 剪 接 和 翻译 。 即 使 每 个 单独 的 语言 都 是 上 下 文 无 关 的 ,但 它 
们 合并 起 来 后 不 一 定 1. 下 文 无 关 。 


11.4” 先 验 信 息 和 初始 化 























































































































11.4.1 从 多 重 序 列 比 对 学 习 文 法 规则 及 初始 化 


SCFG 中 的 所 有 规则 以 及 它们 的 概率 ， 都 可 以 很 容易 地 从 多 重 序列 比 对 得 到 ， 做 
法 和 HMM 一 样 ， 面 且 也 会 产 咎 同样 的 问题 。 参 考 文献 【156 ] 给 出 了 一 种 算法 
产生 式 规则 本 身 从 一 套 未 比 对 序列 得 到 。 对 于 大 的 RNA 分 子 ， 构 造 文法 的 过 程 可 
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以 按 层 分 解 。 首 先 在 二 级 结构 的 大 尺度 motif ( 超 二 元 结构 模 体 ， 如 螺旋 和 环 等 ) 的 
基础 上 构造 高 层次 的 文法 [ 在 参考 文献 【460 ] 中 称 为 元 文法 (metagrammar) ] ， 
然后 每 个 motif 再 各 自用 一 套 SCFG 的 规则 表达 。 


11.4.2 ”Dirichlet 先 验 分 布 


Dirichlet 先 验 分 布 是 随机 文法 的 产生 式 规则 的 自然 选择 。 在 11.3.2 节 的 列表 里 ， 
主要 需要 考虑 两 种 类 型 的 规则 : 配对 牛 成 规则 wu 一 XvY， 以 及 环 区 的 形式 为 Xv 
的 单个 字符 生成 规则 。 对 于 RNA， 第 一 类 规则 有 16 种 可 能 的 形式 ,第 二 类 则 有 4 
种 。 由 于 沃 森 一 克 里 克 碱 基 配 对 关系 ， 相 应 的 Dirichlet 向 量 不 是 单一 的 。 它 们 可 
以 很 容易 地 从 RNA 结 构 比 对 数据 库 中 得 到 ， 例 如 参考 文献 [346] (2211-2). 

其 他 规则 ， 例 如 分 支 的 产生 规则 ， 若 有 必要 也 可 以 DirichletE 则 化 。 














表 11-2 在 实际 的 观察 频率 中 加 入 伪 螺 旋 数 以 反映 先 验 信息 



































3° 3° 3 3° 

A Cc - G u 
5 A 0.160 097 0.135 167 0.192 695 1,590 683 
5 c 0.176 532 0.134 879 3.403 940 0.162 931 
5 G 0.219 045 1.718 997 0.246 768 0.533 199 
5° U 2.615 720 0.152 039 0.249 152 0.249 152 





Dirichlet 先 验 分 布 中 的 16 个 参数 ， 是 通过 在 16S 个 rRNA 序 列 的 大 比 对 中 统计 配对 碱 基 位 置 的 分 布 得 到 
的 。 从 比 对 中 也 可 得 到 环 区 中 核 苷 酸 分 布 的 四 参数 的 Dirichlet 先 验 分 布 : A (0.26), C (0.21), G (0.18), 
U (0.20). 


11.5 (PRE 








首先 考虑 如 何 计算 序列 0=X'…X'…X" 的 似 然 度 P(Olw)， 基 中 序列 的 文法 
好 =M(w)， 参 数 为 wv。 考虑 到 SCFG 是 有 歧义 的 ， 记 x=Q,…, 0% 表 示 从 状态 s 开 始 的 
0 的 一 个 推导 ， 则 








P(s—, Olw)=P(s—>0 w)P(a, > lw) PCa, > Olw) (11.10) 
P(Olw)= Y P(s, Olw) arai) 


显然 ， 这 些 表达 式 与 HMM 中 得 到 的 式 子 很 类 似 ， 只 是 HMM 路 径 被 文法 推导 所 
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代替 。 另 外 ， 这 些 似 然 度 的 表达 式 并 不 能 直接 使 用 ， 因 为 可 能 的 分 析 树 的 数目 
与 序列 的 长 度 之 间 旺 指数 关系 。 但 是 ， 可 以 用 动态 规划 方法 绕 过 这 个 问题 。 对 
于 非 随机 的 乔 姆 斯 基 规范 形式 的 上 下 文 无 关 文法 ， 这 个 算法 被 称 为 Cocke- 
Kasami-Younger 算 法 。[293] 与 HMM 的 前 向 传播 算法 类 似 ， 可 以 对 随机 上 下 文 无 
关 文 法 推导 出 一 个 更 通用 的 版 本 ， 推 导 过 程 留 做 练习 [ 这 也 被 称 为 “内 部 ” 
(inside ) 算法 ] 。 用 类 似 于 HMM 中 Viterbi 算 法 的 动态 规划 方法 ， 可 以 得 到 根据 
SCFG 的 序列 的 最 可 能 分 析 树 。 同 样 ， 我们 仍 将 使 用 “Viterbi 分 析 树 ”或 
“Viterbi 推 导 ” 的 这 两 个 概念 。 值 得 注意 的 是 ， 考 虑 到 SCFG 比 HMM 更 复杂 ， 需 
要 采用 三 维 形式 的 动态 规划 ， 因 此 它 的 复杂 度 是 O(N ”) 而 不 是 O(N ”)( 进一步 的 
细节 见 参考 文献 [ 460,156 ] )。 
































11.6 ”学习 算法 


在 参考 文献 [ 25,345,459,460,156 ] 中 ， 描 述 了 一 类 SCFG 的 学 习 算 法 和 其 他 
算法 。 对 于 HMM， 第 一 层次 的 贝 叶 斯 推断 的 基本 思想 是 通过 用 某 种 循环 算法 将 
似 然 度 或 后 验 概率 最 大 化 ， 从 而 估计 模型 参数 。 在 上 面 提 到 的 大 多 数 例子 中 ， 这 
是 通过 某 种 形式 的 EM 算法 完成 的 ， 当 然 也 可 以 使 用 其 他 方法 ， 如 梯度 下 降 法 。 
因为 其 推导 与 在 HMM 中 详细 描述 过 的 方法 平行 ， 所 以 在 此 只 概述 每 条 学 习 规 则 。 
为 简单 起 见 ， 我 们 从 MIL 估 计 开始 ， 存 在 一 条 训练 序列 0，SCFG 的 规则 和 参数 w 
已 知 。 该 方法 可 以 直接 扩展 到 MAP 估 计 和 多 个 训练 序列 。 考 虑 一 般 的 产生 式 规则 
uP. MONE MES 2, EMn(B, u, x, O) 为 x 中 一 B 规 则 的 使 用 次 数 。 类 似 地 ， 
RATS nt, n, O)= Epa, u, 2, O) 


11.6.1 EM 算法 




















对 算法 的 E 步 又 , LOMPO, w)。 如 果 用 P,,g 表 示 与 规则 对 应 的 概率 参数 ， 
则 EM 的 参数 重新 估计 的 公式 为 


Phage Dag UM ya B, u 5,0) _ xP (710, wn(B, 2,0) _ ny 
>, O(x)n{u, x, 0) >, {2|0, w)n(u, z, 0} nu 


这 个 重新 估计 公式 很 简单 : 所 有 的 复杂 性 都 隐藏 在 分 子 和 分 母 的 计算 中 。 可 以 用 
动态 规划 过 程 计算 它们 ， 和 11.5 节 中 讨论 过 的 类 似 ， 也 和 HMM 的 前 向 一 后 向 算法 
类 似 , 其 计算 量 以 O(N ) 增 长 ,而 HMM 以 OCN”) 增 长 ,其 中 NN 表示 序列 的 平均 长 度 。 


(11.12) 
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如 果 其 中 的 文法 是 乔 姆 斯 基 范 式 ， 这 个 算法 就 是 著名 的 内 部 一 外 部 ( inside- 
outside ) 算法 。 对 有 KK 个 训练 序列 O01,…,Ok 的 情况 ，EM 重 估计 公式 为 


=> Dag P(A). wnlB nt 0,) (11.13) 
SE >, P(zlo,, whl, T, 0)) 


参考 文献 [ 460 ] 给 出 了 一 种 用 于 SCFG 的 EM 算法 ， 称 为 树 文法 EM 算法 tree- 
grammar EM )。 它 的 优点 是 计算 量 按 O(N”) 增 长 ， 但 需 娄 折 秋 结构 的 RNA 作 为 湖 练 
样本 。 折 秋 结 构 比 原始 序列 提供 了 更 多 的 信息 ， 但 比 完 整 的 分 析 树 提供 的 信息 少 。 
如 果 有 完整 的 分 析 树 可 用 ， 只 要 统计 每 个 产生 式 规则 出 现 的 次 数 就 可 以 了 。 另 一 方 
面 ， 折 释 结 构 提 供 了 树 的 骨架 ， 叶 节点 标 上 了 序列 中 的 字符 ， 但 内 部 的 节点 没有 标 
签 。 从 骨架 可 以 判断 哪些 核 苷 酸 是 配对 的 ， 但 无 法 直接 判断 某 个 字符 是 由 匹配 生成 
的 还 是 由 插入 非 终结 符 生 成 的 。 树 文法 EM 算法 估计 了 非 终结 答对 应 的 概率 。 

全 局 的 循环 训练 算法 也 可 能 实现 ， 如 在 参考 文献 [460] 中 ， 在 第 一 步 中 ， 当 前 
的 文法 被 用 于 折 敬 训练 序列 ， 而 在 第 二 步 中 ， 折 盖 序 列 被 用 于 优化 文法 的 参数 一 一 
如 使 用 树 文法 EM 算法 。 可 以 在 文法 中 增加 利 删 去 产生 式 规则 ， 就 像 在 标准 HMM 体 
系 中 调整 长 度 的 算法 那样 。 


























表 11-3 tRNA 家 族 上 使 用 CFG RNA 模 型 的 测试 结果 
























































数据 集 tRNA 类 型 总 数 | ZeroTrain | MT10CY10 | MT100| Random TRNA618 
ARCHAE 十 细菌 103 0 o 0 50 
cy 细胞 质 230 0 10 0 100 
CYANELCHLORO | 蓝 色 体 和 叶绿体 | 184 0 0 0 100 
EUBACT Kae 201 0 0 0 100 
VIRUS 病毒 24 0 0 0 10 
MT 线粒体 422 0 10 100 200 
PARTI 第 西部 分 58 0 0 0 58 
总 数 1222 0 20 100 618 
11.6.2 梯度 下 降 法 和 Viterbi 学 习 算 法 
就 目前 所 知 ， 在 SCFG 的 文献 中 上 只 有 EM 算法 已 经 得 到 了 应 用 ， 但 显然 可 以 使 


其 他 学 习 算法 ， 例 如 梯度 下 降 法 和 Viterbi 学 习 算法 。( 对 于 复杂 的 SCFG 来 说 ， 
拟 退 火 算法 的 运算 量 还 是 太 大 。) 
如 同 HMM ， 我 们 可 以 对 SCFG 进 行 参数 重 估 : 


w E 
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11.7 SCFG 的 应 用 


于 是 梯度 下 降 的 在 线 学 习 公式 是 























需要 进行 归 一 化 ， 第 8 章 中 讨论 过 这 个 
和 非 成 员 ， 可 以 用 于 搜索 数据 库 ， 还 可 





Aw, ,p= Nag -n,P, op) 


其 中 7 是 学 习 率 。 而 在 SCFG 的 Viterbi 学 习 算法 中 ，n(B, u, 元 O) 对 所 有 可 能 的 推导 
取 的 平均 值 被 与 最 可 能 推导 zr 对 应 的 a(B, u, w, O) 代 蔡 。HMM 中 关于 梯度 下 降 法 和 
VYiterbi 学 习 算法 的 大 部 分 结论 ， 经 过 适当 修改 后 都 适用 于 SCFG。 从 折 秋 序列 出 发 
的 Viterbi 学 习 算 法 本 质 上 与 用 已 有 的 多 























(11.14) 


(11.15) 


序列 比 对 初始 化 SCFG 等 价 。 


和 在 第 7 章 与 第 8 章 中 使 用 的 HMM 一 样 ， 训 练 过 的 SCFG 可 以 用 在 很 多 同样 的 
地 方 。 对 每 个 样本 序列 ， 可 以 计算 它 的 Viterbi 分 析 树 。 对 RNA 序 列 ， 它 的 语法 结 
构 或 等 价 的 分 析 树 提供 了 可 能 的 最 优 折 释 ， 这 可 以 用 于 预测 #1 
法 是 对 前 面 基 于 系统 进化 分 析 或 热力 学 的 RNA 二 级 结构 预测 方法 的 补充 。 分 析 树 
也 可 以 用 于 推 革 多 重 序列 比 对 ， 对 齐 的 列 或 成 对 的 列 对 应 于 
也 必须 用 这 种 显而易见 的 方法 引信。 这 有 助 于 确定 共同 的 模式 。 可 以 对 任何 序列 
计算 负 对 数 似 然 度 (或 后 验 ) 分 值 。 和 HMM 一 样 ， 序 列 的 分 值 依赖 于 其 长 度 ， 
问题 。 这 些 分 值 可 以 用 于 区 分 家 族 的 成 员 
[能 发 现 家 族 的 新 成 员 。 生 成 模式 的 SCFG 
可 用 于 推测 给 定 家 族 的 新 成 员 ， 虽 然 这 点 还 没有 经 过 检验 。 最 后 ，SCFG 可 以 模 
决 化 组 合 。 参 考 文献 【156 ] 中 讨论 了 一 个 例子 : 一 个 tRNA 的 SCFG 与 一 个 内 含 
子 文法 组 合 起 来 ， 被 用 于 搜索 tRNA 基因 。 


其 二 级 结构 。 这 个 方 








FRE ERA. HA 











表 11-4_ 使 用 四 种 文法 所 预测 的 二 级 结构 中 与 原始 碱 基 对 匹配 相符 合 的 百分比 












































数据 集 ZeroTrain MT10CY10 MT100 Random TRNA618 
ARCHAE 94.87 100.00 100.00 100.00 
CY 98.28 99.76 99.89 99.87 
CYANELCHLORO 96.22 99,64 99.64 99.79 
EUBACT 99.69 99.86 99.86 99.86 
VIRUS 96.83 100.00 100.00 100.60 
MT 89.19 98.33 98.91 98.93 
PARTI 55.98 81.10 83.21 83.00 
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11.8 实 $ 


这 里 给 出 了 参考 文献 [ 460 ] 中 tRNA 家 族 的 SCFG RNA 模 型 的 检验 结果 。 参 
考 文献 [ 156 ] 给 出 了 类 似 的 结果 。 原 始 数据 集中 包含 1 222 个 独立 的 tRNA 的 序列 
和 比 对 ， 这 些 序列 和 比 对 是 从 参考 文献 [ 502 ] 所 提供 的 数据 库 中 提取 的 。 它 们 
的 长 度 介 于 51 到 93 个 碱 基 之 间 ， 序 列 按照 不 同 的 tRNA 类 型 分 成 7 个 不 相交 的 集 
合 ( 表 11-3)。 

为 了 进行 识别 实验 ， 根 据 GenBank 中 序列 的 non-tRNA (包括 mRNA,， rRNA 
和 和 蛙 白 质 编码 区 ) 特征 表 产 生 了 2 016 个 non-tRNA 测 试 序列 ， 对 20 到 120 之 间 的 每 
个 长 度 ， 大 约 生 成 了 20 个 non-tRNA 序 列 ， 然 后 生成 了 四 个 不 同 的 文法 。 第 一 个 文 
法 (ZeroTrain ) 作为 控制 组 ， 没 有 在 任何 序列 上 训练 过 ， 只 包含 IRNA 的 先 验 信 
息 。 另 外 三 个 文法 《MT10CY10，MT100，Random TRNA618 ) 是 从 表 11-3 所 示 
的 不 同 集合 中 训练 出 来 的 ， 使 用 的 是 树 文法 EM 算法 。 需 要 在 三 个 方面 上 比较 这 
四 个 文法 : 多 重 序列 比 对 、 二 级 结构 预测 及 识别 。 











表 11-5 每 个 IRNA 家 族 中 ， 能 与 非 tRNA 区 分 开 的 tRNA 数目 及 其 对 应 的 识别 阔 值 
































































5c 以 上 40 以 下 

ZT| MTI0T MT100 MTI0[ MT100] R618 
ARCHAE 66| 103| 103 0 0 0 
cY 135| 230| 230 0 0 0 
CYANELCH | 61| 184| 184 0 0 o 
EUBACT 160| 201| 201 0 0 0 
VIRUS 16| 24| 24 0 0 
MT { 训练 集 有 N/A 10 99 0 0 1 
MT (HURRY 64 | 389] 313 3 2 1 
PARTII 0 9 7 34| 37| 21 
NON-TRNA | 0 0 0 2016| 2015|2015 
总 数 502 | 1150| 1161 2063| 2054 2038 | 


























11.8.1 多 重 序列 比 对 


分 别 使 用 四 个 文法 ， 对 数据 集中 的 全 部 1 222 个 tRNA 序列 进行 比 对 。 其 中 
Random TRNA618 得 到 了 最 好 的 结果 。 预 测 的 比 对 与 数据 集 原始 的 比 对 基本 吻 
合 (图 11-3 )。 螺 旋 和 环 的 边界 是 相同 的 。 主 要 的 区 别 在 于 额外 臂 ， 其 长 度 和 序 
列 都 是 高 度 可 变 的 。 参 考 文献 [ 460 ] 中 给 出 了 文法 比 对 对 原始 的 比 对 做 出 小 改 
进 的 例子 。 





Hf 
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i 了 ok > < RT >< >< TK of 

CEL ue DD) CC === ))))) COL 399935999993 
1 DC0380 -CCCAACCTCCCACACTTCCGCCTAAKCCCCCCCCCTGCAGAGCCGCTC- ---ATCCCCCGTTCAAATCCCCCCCTTCCCT - 
2 DA6281 -GCCCCTCTCCCCTACTC-CCT--ACCGCCCTCCCTTACCATCCCGACAC----CTCTCCCCTTCCATTCCCCACTCCTCC 
3 DE2180 --CCCCCATCGTCTACA- -GCCCTACCACACCTCCCTTTCACCCACCCG- 
4 DC2440 -CCCGGCATAGCCAAGC - -CGT --AACCCCGTGGATTGCAAATCCYCT 






S DK1141 -CTCYCATTACCCCAACT-CCC--ACACCAACTCACTCTTAATCACT TTCTGCCTTCCATTCCCACATCACCC 
6 DA0260 -GCCCCAATAGTCTCACC-GGG- -AGCACACCAGACTTCCAATCTCCTA----C-CCACCCTTCAACTCCCTCTTTCTCCACCA 
7 DA3880 -CCCCCTATACTTTAACT-GCT- -AAAACCCCCATTTTCGCATATCCTTA- ---T-TTCACCATCCACTCCTCATAACTCCA- -~ 
8 DH4640 -AGCTTTGTAGTTTATGTG-~-- -AAAATCCTTCTTTCTCATATCAGTCGAAAT-------------------- TGCACCTT 





COCKE, COKE DÐ CLE === 9990) LCCC 9))999))99) 
1 DC0380 -CCCAAGGUCGCAG.. ACLUCEGc CUAACGCOGCGGCCUGCAGAGCCGCUC -~ -AUCCCCCCUUCAAAUCCCCCCCUUCCGCI 
2 DA6281 -CCCCCUCUGCCCU . AGUC .GG . . JAGCCCGCUCCCUUAGCAUGGGAGAGG- ~ -UCUCCGCUUCGAUVCCGGACUCGUCCA-- - 





3 DE2180 -GCCCC-AUCGUCU . AGAG ,GCC , VACGACACCUCCCUUUCACGGAGGCC- -- -ACGGGCAUUCCAAUUCCCCU-GGGGCU- -A 
4 DC2440 CCAUACCCA AGC- .GG. .LAACCCCCUCGCAUUCGCAAAUCCUCUA- - -UUCCCCACUUCAAAUCUCCCUCCCCCCU 一 - 
S DK1141 UUCUCCCUUCCANUCCCACAUCAGGCACCA 
6 DA0260 CGCAGGGUUCGAGUCCCUCUUUGUCCACCA 
7 DA3880 UUUCAGGAUCGAGUCCUGAUAACUCCA- = — 
B DH4640 -AGCUUUCUAGUUU, A--U, GU. . GAAAAUGCUUGUUUGUGAUAUGAGUCA--AAU------------- -=-= UGGAGCU 


图 11-3 数据 集 里 的 几 条 代表 性 的 tRNA 的 多 重 序列 比 对 { 上 ) [5221 
与 训练 过 的 随机 TRNA618 文 法 产生 的 结果 ( 下 ) 比较 










“(CY 指出 了 配对 三 基 位 置 ; “===” 为 反 义 密 码 子 ，“[ ] ”为 接纳 体 蝎 旋 的 5 和 3' 端 。 对 于 Random 
TRNA618， 大 写字 母 对 应 于 与 文法 的 匹配 非 终 结 符 对 齐 的 碱 基 ， 小写 字母 对 应 子 插 和 人; “-” 对 应 于 通过 跳 
跃 生 成 的 出 除 ， “.” 填 充 插 入 对 应 的 字符 位 置 ， 序列 取 自 上 面 的 七 个 组 ， 并 标 以 数据 库 代码 ; 
1. ARCHAE ( Halobacterium cutirubrum ) ; 2. CY ( Saccharomyces cerevisiae ) ; 3. CYANELCHLORO 
{ Cyanophora paradoxa ) ; 4. CYANELCHLORO ( Chlamydomonas reinhardtii) ; 5, EUBACT ( Mycoplasma 
capricolum ) ; 6. VIRUS ( Phage T5), 7. MT (Aspergillus nidulans ) ; 8. PARTII (Ascaris suum}. 








11.8.2 RNA 二 级 结构 预测 


对 于 二 级 结构 预测 ， 在 大 多 数 情况 下 ，Viterbi 分 析 树 能 给 出 正确 的 一 级 结构 。 
表 11-4 给 出 了 原始 比 对 中 的 碱 基 对 在 每 个 文法 所 预测 的 二 级 结构 中 出 现 的 百 分 
比 。 对 ARCHAE 和 VIRUS， 三 个 经 过 训练 的 文法 都 达到 了 100 多 的 识别 ; 对 CY、 
CYANELCHLORO 和 EUBACT 也 有 非常 好 的 一 致 性 ; 对 PART MW RS. 








11.8.3 识别 


测试 四 个 文法 的 识别 能 力 的 方法 ， 是 计算 所 有 2 016 个 non-tRNA 序 列 的 标准 
化 分 值 ， 并 与 数据 集 里 的 1 222 个 tRNA 序列 的 分 值 相 比较 。non-tRNA 序 列 的 标准 
分 值 很 少 超过 4， 所 以 识别 阔 值 被 定 为 ;。 表 11-5 给 出 了 每 个 家 族 中 能 成 功 地 与 
non-tRNA 区 分 开 的 tRNA 数目 。 图 11-4 显 示 了 一 些 对 应 的 柱状 图 。 

PERMANEN 练 ， 也 可 以 显著 地 提高 检测 率 ， 比 较 MT10CY10 
和 ZeroTrain 可 以 看 出 这 一 点 。 除 了 对 MT 和 PART 焉 这 两 个 子 集 外 ，MTI10CY10 完 
全 正确 地 EtRNA 和 ton-tRNA 分 开 了 ， 而 在 前 两 个 子 集 上 ，ZeroTrain 文 法 失败 
了 。MT10CY10 在 MT 子 集 上 识别 得 相当 好 ， 但 在 PART 亚 上 不 行 。MT10CYI0 识 
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ZeroTrain 文 法 

= non-tRNA(2. 016) 

MS RMTHOPART ID FERAH 
tRNA (742) 














MTIOCY10 文 法 


三 pon-tRNA(2016) 
除 MT 和 PART 眉 子 集 外 的 
RNA (742) 

















MTIOCY10 文 法 
= non-tRNA(2 016) 
MMT tRNA (422) 
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MT RNA (422) 
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MTIQCY10 文 法 
= non-tRNA(2 016) 
ME PART RNA (58) 






















































Random TRNA618 文 法 
= non-IRNA(2 016) 
加 PART I tRNA (58) 
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图 11-4 ”由 标准 分 值 的 柱状 图 最 示 的 不 同文 法 识别 试验 的 部 分 结果 
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别 了 422 条 线粒体 序列 中 的 399 条 ，、 这 个 识别 水 平 几乎 和 其 他 用 更 多 tRNA 序列 训练 
出 来 的 文法 差不多 。 对 于 PART 弄 序 列 ， 没 有 一 个 文法 能 识 曾 得 比较 好 ， 即 使 是 
RandomTRNA618 也 不 行 ， 虽 然 它 在 这 些 序列 的 一 部 分 上 训练 过 。 在 PART 下 序列 
上 的 训练 能 提高 文法 在 这 些 序列 上 的 识别 水 平 ， 但 仍 有 一 半 序 列 得 到 的 标准 分 什 
低 于 阅 值 5。 














11.9 R H 


至 此 我 们 已 经 回顾 了 形式 诸 言 和 文法 的 基本 理论 ， 知 道 了 如 何 通过 推广 仍 子 
模型 和 HMM 的 思想 把 随机 文法 应 用 到 生物 序列 上 。 特 别 是 ，SCFG 和 对 应 的 学 习 
算法 已 经 被 应 用 于 推导 tRNA 的 统计 模型 。 训 练 过 的 文法 被 用 于 比 对 、 折 共和 识 
别 tRNA, 并 且 取 得 了 很 好 的 结果 。SCFG 方 法 是 确定 tRNA 二 级 结构 的 可 行 方 法 。 
它 补充 了 原 有 的 两 种 方法 ， 一 种 基于 对 癌 源 序列 的 系统 进化 分 析 ，[185565， l 
一 种 则 基于 热力 学 。 21222527555 1 然而， 与 应 用 于 蛋白 质 家 族 研究 的 HMM 相 比 ， 
用 于 RNA 的 SCFG 还 没有 被 足够 彻底 地 检验 过 ， 还 需要 更 多 的 工作 来 进一步 确立 这 
种 方法 。SCFG 能 找 出 RNA 的 全 局 结构 比 对 ， 而 最 近 出 现 了 一 个 求 局 部 结构 比 对 的 
新 动态 规划 算法 ， 该 算法 效果 良好 。'***!] 这 个 局 部 方法 是 对 Smith-Waterman 比 
对 方法 的 扩展 ， 并 和 另 一 种 动态 规划 技术 结合 ， 寻 找 最 大 数量 的 互补 碱 基 对 。 

本 章 的 文法 方法 有 一 些 局 限 。 首 先 ， 它 们 计算 量 很 大 ， 因 此 对 于 长 的 序列 尤其 
是 N>200 的 序列 ， 现 在 的 算法 仍 有 一 些 不 切实 际 。 第 二 ， 并 非 所 有 的 RNA 结 构 可 以 
由 SCFG 得 到 。 它 的 分 析 树 不 能 反映 伪 结 各 非 成 对 的 相互 作用 等 其 他 三 级 相互 作用 ， 
所 有 这 些 都 被 忽略 了 。 第 三 ， 本 章 所 描述 的 方法 不 包括 内 含 子 的 模型 ， 而 某 些 tRNA 
基因 中 存在 内 含 子 。 这 些 限 制 为 未 来 的 研究 指出 了 一 些 显 而 易 见 的 方向 ,包括 : 

。 算 法 或 者 硬件 的 速度 提升 ; 

。 建立 文法 ， 可 能 是 图 文法 《 或 其 他 模型 ) 以 及 对 应 的 训练 算法 ,以便 引 入 
RNA 三 级 结构 或 者 其 他 分 子 的 三 级 结构 ; 
© SCFG 的 模块 化 结合 ( 如 同 HMM )， 用 来 对 更 复杂 的 RNA 序 列 建 模 ， 包括 
HARTER, 这 方面 的 工作 可 见 参考 文献 [156] ; 

9 对 更 大 和 更 具 挑 战 性 的 RNA 序 列 建 模 ， 例 如 rRNA 序列 ; 
© 最 后 ， 沿 着 第 9 章 的 思路 发 展 SCFG / NN (或 SG / NN ) 的 混合 构架 ， 其 中 
NN 用 于 计算 SCFG 的 参数 ， 或 者 用 于 调整 、 混 合 几 个 不 同 的 SCFG。 
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12.1 微 阵列 数据 简介 


在 过 去 短 短 几 年 里 ， 基 于 微 阵列 的 新 技术 大 量 涌现 并 且 不 断 飞速 发 展 。 这 一 
类 技术 包括 DNA 杂 交 阵 列 ( hybridization array) [ 基因 表达 阵列 以 及 用 于 测序 和 
SSL ATER ATG (oligonucleotide ) 阵列 ] 、 蛋 白质 阵列 、 组 织 阵列 以 及 
组 合 化 学 阵列 等 。 由 于 这 些 高 通 量 方法 使 大 量 分 子 与 一 个 大 型 文库 之 间 的 组 合 反 
应 成 为 可 能 ， 这 些 方法 很 快 就 产生 了 数 以 兆 计 的 信息 ， 远 远 超过 传统 的 生物 分 析 
方法 所 提供 的 数据 。 这 一 章 主要 讨论 研究 DNA 基 因 表 达 的 微 阵列 技术 。 紧 随 参考 
文献 [44 ] 的 思路 ,我 们 将 介绍 如 何 系统 地 将 一 般 性 的 概率 体系 用 于 分 析 微 阵列 
数据 ， 更 完整 的 有 关 DNA 微 阵列 处 理 的 介绍 参见 文献 [43 ] 。 

DNA 基 因 表 达 微 阵列 使 得 生物 学 家 能 够 在 基 央 组 层次 上 研究 任何 种 类 细胞 在 
任何 时 间 、 任 何 给 定 条 件 下 的 基因 表达 模式 。 :60291 在 这 类 微 阵列 中 ， 所 有 的 
RNA 被 反 转 录 成 带 有 放射 性 同位 素 或 荧光 标记 的 cDNA。 然 后 ，cDNA 与 由 基诺 
片断 组 成 的 、 固 定 在 玻 片 或 膜 上 的 大 型 DNA 文 库 杂 交 。 最 后 ， 采 用 荧光 或 其 他 成 
像 技术 测定 上 千 个 基 央 在 各 种 不 同 实验 条 件 下 的 表达 。 利 用 这 些微 阵列 ， 人 们 正 
产生 出 大 量 的 数据 ， 它 们 可 以 帮助 我 们 深入 地 认识 诸多 生物 过 程 的 本 质 ， 如 基因 
功能 、 发 育 、 癌症 、 衰老 和 药理 等 。 498,567,7,217,354,511,7,554,369,159,171 ] 即使 是 对 现 有 信 
息 的 部 分 理解 也 能 够 提供 很 有 价值 的 线索 。 例 如 ， 新 基因 的 共 表 达 《eo- 
expression ) 就 可 以 帮助 我 们 推断 许多 缺乏 相关 信息 的 基因 的 功能 。 然 而 ， 基 锋 
微 阵列 数据 分 析 方法 的 发 展现 在 才刚 刚 起 步 。5s811 
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基因 表达 微 阵 列 数据 至 少 可 以 在 三 个 复杂 性 依次 递增 的 层次 上 进行 分 析 。 第 
一 个 技 次 是 单 基 因 层 次 ， 主 要 研究 单个 基因 在 处 理 条 件 和 对 照 条 件 下 是 否 有 不 同 
的 表达 。 第 二 个 层次 是 多 基 内 层次 ， 主 要 从 上 其 辣 功 能 、 相 互 作用 、 共 调控 等 角度 
研究 基因 族 。 人 在 第 三 个 层次 上 ， 人 们 则 试图 推测 出 隐藏 在 我 们 观察 到 的 基因 表达 
模式 背后 的 基 内 吉 蛋 白质 调控 网 络 。 
HH, HELER, RREPERI T RAWEA, AXX, 
AAE AE RER HR AR A A AR FRAKKER A. EE, ERI 
是 广义 的 ， 它 指 的 是 任何 不 同 于 对 照 的 条 件 。 对 得 个 基因 来 说 ， 所 关注 的 基本 问 
题 是 在 这 两 种 条 件 下 ， 基 因 的 表达 水 平 有 无 显著 不 同 。 昌 然 从 表面 上 看 ， 用 标准 
的 统计 方法 可 以 轻松 地 解决 这 个 问题 ， 但 是 实际 情况 并 非 如 此 。 
一 种 常用 的 方法 是 一 种 简单 的 倍数 法 。 在 这 种 方法 中 ， 只 要 对 照 组 和 处 理 组 
的 基 央 平均 表达 水 平 的 比值 超过 了 一 个 常数 因子 - 一 通常 为 2， 就 认为 基因 的 表 
达 水 平 发 生 了 显著 变化 。 然 而 ， 对 基因 表达 数据 的 仔细 分 析 表 明 ， 用 这 个 简单 的 
“2 倍 法 则 ”不 太 可 能 得 到 最 优 的 结果 ， 因 为 在 表达 谱 的 不 同 区 域 ,“2” 这 个 因子 
所 代表 的 显著 性 是 大 不 相同 的 。 
解决 这 个 问题 的 另 一 种 方法 是 使 用 :检验 法 ， 例 如 对 表达 水 平 的 对 数值 进行 检 
验 。 这 有 点 类 似 于 倍数 法 ， 因 为 对 数 的 差 和 比值 的 对 数 是 相等 的 。 但 是 由 于 均值 
的 对 数 不 等 于 对 数 的 均值 ， 这 两 种 方法 并 不 等 价 。 事 实 上 ， 由 于 对 数 丽 数 的 凸 性 ， 
均值 的 对 数 总 是 严格 大 于 对 数 的 均值 。 但 是 通过 合理 近似 ， 检 验 两 个 基因 对 数 表 
达 水 平 差异 的 显著 性 ， 与 检验 它们 比值 的 变化 与 1 是 否 有 显著 差异 是 等 价 的 。 
在 :检验 中 ， 利 用 经 验 均 值 m。、m, 和 方差 st 、s?， 按 照 下 式 计算 两 个 总 体 之 间 
的 标准 化 距 高 : 
















































































































































































2 2 
t=(n.-m,)/ a = (12.1) 


站 


HP, m= Xj xn Ms? Ej Cxrm920n-D 是 我 们 所 热 知 的 对 总 体 均值 和 总 体 方差 的 估 
计 。 从 统计 学 文献 中 不 难 知道 ，1 近 似 服从 自由 度 为 


KORD 


nl a-i 


的 学 生 开 分 布 《附录 A )。 如 果 ! 超 过 了 某 个 由 给 定 的 置信 水 平 确定 的 阔 值 ， 两 个 
总 体 就 被 认为 是 不 同 的 。 在 :检验 中 ， 由 于 总 体 均值 之 间 的 距离 被 经 验 标准 差 标准 





(12.2) 
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化 ， 因 此 可 以 避免 固定 闷 值 倍数 法 的 一 些 缺点 。 用 :检验 法 分 析 微 阵列 数据 的 根本 
问题 在 于 实验 重复 的 次 数 上 和 ( 或 ) rn 往往 太 少 ， 这 是 因为 即便 采 几 最 新 的 技术 ， 
反复 做 同 -- 个 实验 仍然 是 相当 昂贵 或 者 乏味 的 。n=1,2 或 3 的 小 样本 的 情况 依然 非 
常常 见 ， 这 会 导致 一 些 问题 ， 例 如 方差 会 被 明显 地 低估 。 因 此 ， 需 要 一 个 更 好 的 
理论 体系 来 解决 所 有 这 些 不 足 。 























12.2 ”阵列 数据 的 概率 模型 


12.2.1 高 斯 模型 


由 于 阵列 数据 噪声 大 、 波 动 大 ， 而 且 在 大 量 数据 的 背后 还 有 很 多 相关 变量 不 
能 被 观测 到 ， 因 此 需要 用 种 概率 方法 来 处 理 这 种 数据 。 为 了 理解 处 理 阵列 数据 
的 概率 方法 ， 应 该 先 回忆 一 下 前 面 所 学 过 的 序列 数据 的 分 析 方法 。 在 第 3 章 中 讲 
到 ， 序 列 数据 的 最 简单 概率 模型 是 一 个 反映 DNA、RNA 或 蛋白 质 序列 家 族 的 平均 
组 成 的 概率 仍 子 。 下 一 个 复杂 层次 上 的 模型 是 一 个 1 阶 马 尔 可 去 模型。 在 这 个 模 
型 中 ， 序 列 的 每 个 位 置 或 者 多 重 比 对 的 每 一 列 都 对 应 了 一 个 概率 假 子 。 在 前 面 我 
们 已 经 看 到 ， 这 些 模型 虽然 简单 ， 但 作为 背景 模型 ， 它 们 是 非常 有 用 的 ， 比 如 我 
们 可 以 用 它们 来 评估 更 复杂 的 模型 的 性 能 。 
在 阵列 数据 处 理 中 ， 最 简单 的 模型 假设 所 有 的 数据 点 相互 独立 ， 并 且 从 同一 
个 连续 分 布 如 高 斯 分 布 中 抽取 。 这 样 一 个 “高 斯 骨 子 ”模型 仍然 需要 计算 一 些 我 
们 感 兴趣 的 量 ， 例 如 平均 活性 水 平 及 其 标准 差 。 这 些 量 在 刻画 或 估计 数据 的 全 局 
特性 时 有 用 。 与 序列 数据 的 建 模 相当 ， 更 复杂 的 模型 是 一 组 独立 分 布 ， 每 个 分 布 
对 应 一 维 变 量 ， 比 如 一 个 基因 。 册 于 基因 之 间 存 在 着 复杂 的 相互 作用 关系 ， 它 们 
显然 不 是 独立 的 。 尽 管 如 此 ， 独 立 性 这 一 近似 假设 还 是 有 用 的 。 事 实 上 ， 任 何 有 
概率 或 其 他 方法 逐个 基因 地 确定 表达 水 平 差异 显著 性 的 尝试 或 可 能 人性， 都 建立 在 
这 一 假设 的 基础 之 上 。 

这 里 首先 假设 在 某 种 给 定 条 件 下 ， 一 个 基因 的 表达 水 平 的 测量 值 大 致 服从 高 斯 
分 布 。 根 据 经 验 ， 就 通常 采用 的 技术 而 言 ， 这 一 假设 是 合理 的 ， 特 别 是 表达 水 平 的 
对 数 大 致 服从 对 数 正 态 分 布 。 就 目前 所 知 ， 还 没有 进行 大 规模 的 重复 实验 来 获得 更 
精确 的 估计 。 如 果 嘉 的 进行 重复 实验 ， 诸 如 向 玛 分 布 、 高 斯/ 伽 玛 混合 分 布 的 其 他 
分 布 显然 也 会 被 引 人 。 引 人 这 些 分 布 将 会 影响 分 析 的 细节 ( 见 参考 文献 【558,403 
然而 一 般 性 的 贝 叶 斯 概率 体系 不 变 。 

因此 ， 下 面 假定 数据 都 经 过 了 预 处 理 一 一 包括 在 必要 时 取 了 对 数 一 使 得 
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个 基因 在 -种 条 件 ( 处 理 或 对 照 ) 下 的 表达 水 平 的 测量 值 可 以 用 一 个 正 态 分 布 
Nes 由 来 建 模 。 对 每 个 基因 和 每 个 条 件 , 都 对 应 有 一 个 双 参 数 模型 w=(h, 0”)。 
通过 把 目光 集中 在 这 样 一 个 模型 十， 可 以 忽略 基因 利 实验 条 件 本 身 的 标记 。 假 
设 观 测 结果 是 独立 的 ， 则 似 然 函数 由 下 式 给 出 : 



































PIE, 0) ~ [Nei wo) 
=C(0) expl- Z e-no 


=C(0°)exp{—[n(m-p)"+(n- Ds" 120} (12.3) 


其 中 ，i 取 遍 所 有 的 重复 测量 。 在 本 章 中 ， 采 用 C 来 表示 任何 分 布 的 归 一 化 常 
数 ( C=1/Z )。 似 然 度 仅仅 取决 于 充分 统计 量 x、m 和 s*。 换 句 话 说 ， 样 本 的 所 有 与 
似 然 度 相关 的 信息 都 包含 在 这 三 个 数 里 了 。 高 斯 模型 的 均值 或 方差 已 知 的 情形 相 
对 比较 简单 ， 参 考 文献 [ 86,431 ] 对 此 有 全 面 的 讨论 。 

完整 的 贝 时 斯 处 理 还 需 引 入 一 个 先 验 分 布 P(1, oa?)。 如 何 选取 这 个 先 验 分 布 
是 建 模 的 一 部 分 。 有 几 种 可 能 的 选择 ,'**3!1 这 反映 了 贝 叶 斯 方法 的 灵活 性 ， 但 
它 绝 不 是 随意 的 。 采 用 共 轿 先 验 分 布 既 方便 又 能 充分 体现 DNA 微 阵列 数据 的 一 些 
性 质 ， 其 中 包括 我 们 将 要 看 到 的 一 个 性 质 ， 即 4 和 不 是 独立 的 。 


12.2.2 SARS 


24 F005) i AUS 3) ff BOR TOI , SES A BR WESTER a 
THD MAIER, RATS, Sey 7 RE 
Soi. RNUABA, EEWAORS ME, PRA 
Dirichlet 分 布 。 在 (12.3 ) F, (DUAR BYE a de IC ELAH 
Pula)P(o) 的 形式 ， 其 中 边缘 分 布 尺 o 对 应 一 个 标定 北 仰 玛 分 布 (相当 于 1/oz 服 
从 黎 至 分布， 见 附录 A )， 而 条 件 分 布 P(Hjo2) 是 正 态 分 布 。 

由 此 可 以 导出 一 个 分 层 模型 ， 在 该 模型 中 ， 先 验 分 布 的 四 个 超 参数 构成 一 个 
向 量 o=(po, Ap, Yo, 02)， 先 验 分 布 的 密度 为 


























PUPENY; Ho O7/Ay) (12.4) 


PIKO; Vo, OG) (12.5) 
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当 且 仅 当 Ww>2 时 ， 先 验 分 布 的 期 望 是 有 限 的 。 先 验 分 布 Pi, AP oo 由 下 式 
给 出 : 





a gl eo — (uy - 1) | (12.6) 
注意 ， 对 于 微 阵列 数据 ， 采 用 一 个 上 和 到 相互 不 独立 的 先 验 分 布 很 有 意义 ， 只 要 
查看 典型 的 基因 微 阵 列 数据 集 ， 立 刻 就 能 看 出 这 -一 点 ( 图 12-1 )。 超 参数 Ho 和 
Yh 可 以 看 做 jp 的 位 置 和 尺度 ， 超 参数 VW 各 可 以 看 做 中 的 自由 度 和 尺度 。 经 过 
一 些 代 数 运算 ， 可 以 推导 出 后 验 分 布 具 有 与 先 验 分 布 相同 的 函数 形式 ; 




















PCL, OID, = Ni Hp, ON) HO: vs 0 (12.7) 
Hh 
=% n (12.8) 
Pe ee gan" 
b=hotn (12.9) 
VVotn (12.10) 
vo? d+ (m=) (12.11) 


后 验 分 布 的 参数 以 一 种 合理 的 方式 将 先 验 分 布 的 信息 和 数据 信息 结合 了 起 来 。 均 
值 4 是 先 验 均值 和 样本 均值 的 凸 加 权 平 均 。 后 验 自由 度 w 是 先 验 自由 度 加 上 样本 
量 。 后 验 平方 和 wo 是 先 验 平方 和 vaai、 样 本 平方 和 (xz-1)s? 及 残 差 不 确定 度 
(residual uncertainty ) 的 总 和 。 残 差 不 确 定 度 由 先 验 均值 和 样本 均值 之 间 的 差异 
确定 。 

昌 然 可 以 对 基因 表达 数据 采用 一 个 先 验 均值 ho。， 但 在 很 多 情况 下 ， 令 jo=m 就 
足够 了 。 随 之 可 以 准确 地 得 到 后 验 平方 和 ， 就 好 像 有 ww 个 额外 的 观测 ， 而 每 个 额 
外 的 观测 都 具有 偏差 中 一 样 。 虽 然 从 表面 上 看 ， 这 好 像 是 在 观测 到 数据 以 后 再 设 
置 先 验 分 布 , "但 是 通过 预先 没 定 一 个 jo。， 并 使 0， 可 以 得 到 类 似 的 效果 。 
此 时 ,由 于 标准 差 很 大 ， 均 值 位 星 的 先 验 分 布 几 乎 是 一 个 均匀 分 布 。 先 验 分 布 的 
趋 参数 选择 将 在 下 面 详细 讨论 。 

不 难 验证 ， 均 值 的 条 件 后 验 分 布 Ptplo?, D, OREA NG, PA) HE 
的 边缘 后 验 分 布 PUalD, OFERA, Hp 02/,))， 方 差 的 边缘 后 验 分 布 
POD, RARER MEA H Kv, o 


‘ns On 
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WRAT, BP, oo)=PGOP(ao5， 且 它们 的 先 验 分 布 在 函数 形式 
上 与 其 罗 先 验 分 布 相同 〈 分 别 是 正 态 分 布 和 标定 逆 伽 玛 分 布 )， 则 也 可 以 采用 半 
共 地 先 验 分 布 。 但 是 正如 前 面 所 讨论 的 ， 独 立 性 假设 对 于 DNA 微 阵列 数据 并 不 是 
KEM. TE MP FASE BEALS} TINEA SP A Ld A OED A 
也 可 以 利用 混合 分 布 构造 出 更 复杂 的 先 验 分 布 。 


12.2.3 参数 点 估计 


ERDEP OID, 多 是 贝 叶 斯 分 析 的 基本 对 象 ， 它 包含 了 J 和 中 所 有 可 能 取 
值 的 相关 信息 。 但 是 ， 为 了 进行 前 文 所 描述 的 检验， 需要 把 这 个 信息 含量 丰富 的 
分 布 函 数 浓缩 成 基因 在 菜 种 给 定 条 件 下 的 表达 水 平 的 均值 和 方差 的 单 点 估计 。 我 
们 可 以 通过 多 种 途径 进行 估计 。 一 般 来 说 ， 用 后 验 估计 的 均值 (MP ) 得 到 的 答 
案 是 最 鲁 棒 的 。 另 一 种 选择 是 用 后 验 分 布 的 众 数 ， 也 就 是 MAP ( 最 大 后 验 ) 估计 。 
为 了 讨论 的 全 面 性 ， 以 下 分 别 来 推导 这 两 种 合计。 

若 w>2，MP 估 计 可 以 通过 积分 由 下 式 给 出 ; 











u=u, 和 =e a, (12.12) 


蔡 取 jo=m 晶 Yotn>2， 则 可 以 得 到 下 面 的 MP 估计 : 
u=m All o= YT = Vda tln? (12.13) 
Vv, 72 Vg tn—2 


这 就 是 下 面 将 要 所 到 的 Cyber-T 软 件 采用 的 缺 省 估计 ( default estimate ) H (12.7), 
MAP 佑 计 是 


2 
Hau, M oyt (12.14) 
Va 


如 果 我 们 取 jo=m， 它 们 就 可 以 化 简 成 


pam 和 Pa Yan „Yoga + (nm 1)s” (12.15) 
Vl votn-l 
RE, 边缘 后 验 分 布 的 众 数 由 下 式 给 出 : 


2 
a=, 和 Oe (12.16) 
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实际 上 , (12.13) Al (12.15) 给 出 的 结果 相近 ， 它 们 都 可 以 用 于 基因 表达 阵 
列 。 这 两 种 方法 的 细微 差别 在 于 ，-… 般 来 说 (12.13) 稍 好 一 些 ， 这 点 我 们 在 第 3 
章 讨论 序列 数据 的 Dirichlet 先 验 分 布 时 就 已 经 看 到 了 。Dirichlet 先 验 分 布 相当 于 引 
入 伪 计 数 ( pseudo-count )， 从 而 避免 将 某 种 氨基 酸 或 核 苷 酸 的 概率 设 为 0。 在 阵 
列 数据 中 ， 通 过 较 少 的 观测 点 给 出 的 方差 估计 结果 可 能 会 很 差 。 例 如 对 一 个 单 点 
(n=1), 我 们 当然 想 避 免 将 方差 设 为 0， 央 此 需要 通过 共 罗 先 验 分 布 做 正则 化 处 理 。 
在 MP 估计 中 ， 利 用 W 个 上 共有 背景 方 差 叮 的 伪 疯 测 ( pseudo-observation ) 对 经 验方 
差 进行 调 整 。 
12.2.4 完整 的 贝 叶 斯 处 理 和 超 参 数 点 估计 


到 了 建 模 的 这 个 阶段 ， 每 个 基因 都 与 两 个 模型 w.=(J, oD 和 w=(j, od, BAL 
超 参 数 a. 和 a,， 两 个 后 验 分 布 P(w.1D， 0) 和 P(wlDP，a) 相 关联 。 完 整 的 概率 处 理 需 
要 直入 超 参数 的 先 验 分 布 。 可 以 对 超 参数 的 先 验 分 布 积分 得 到 真实 后 验 分 布 
了 PCwdD) 和 PCwlD)， 然 后 再 对 这 两 个 后 验 分布 沿 w 和 ww 积分 以 判断 两 个 横 型 是 否 不 
Fl. TERS -方法 明显 要 比 单纯 的 :检验 法 更 具 一 般 件 ， 原 则 上 上 它 可 以 发 现 ! 检 验 
法 检测 范围 之 外 的 有 趣 变 化 。 例 如 ， 如 果 一 个 基因 的 表达 水 平 在 对 照 条 件 和 处 理 
条 件 下 均值 相等 但 方差 差别 很 大 ， 哪 怕 方 差 的 这 种 差别 有 可 能 与 具体 的 生物 现象 
有 关 ，t 检 验 法 也 检测 不 到 这 种 差别 。 即 便 我 们 只 考虑 人 和 此 且 它们 服从 高 斯 后 验 
分 布 ， 我 们 也 必须 从 数值 上 估计 出 P( Ih.-pl<e )。 虽 然 利用 现在 的 计算 机 求解 后 
者 并 不 是 什么 难事 ， 但 是 我 们 也 完全 可 以 采用 仪 仅 依赖 于 点 估计 的 方法 ， 这 种 方 
法 比 完整 的 贝 叶 斯 处 理 更 简单 ， 近 似 程度 更 好 。 

然而 ， 点 估计 需要 超 参 数 ， 这 可 以 通过 很 多 途径 解决 。!372251 一 种 途径 仍然 
是 定义 超 参数 的 一 个 先 验 分 外， 然后 试 着 对 它们 积分 计算 出 真实 后 验 分 布 POwID) 并 
确定 后 验 分 布 的 众 数 ， 从 而 得 到 w 的 真实 MAP 估 计 。 更 确切 地 说 ， 这 需要 求 Ptwla 
利 P(wlalD) 对 超人 参数 向 时 w 的 积分 。 一 个 可 以 取代 对 超 参数 积分 的 方法 是 在 参考 文 
BR 1372] 中 撒 述 的 显 昔 性 理论 框 轩 (evidence framework Jo 在 显著 性 理论 框架 中 ， 
我 们 用 后 验 分 布 的 MAP 估 计 计算 超 参 数 的 点 估计 《( MP 还 是 需要 对 超 参 数 积分 ): 
P(Dja)P(œ) 

P(D) 


如 果 我 们 取 先 验 分 布 Pa) 为 均匀 分 布 ， 这 就 等 价 于 最 大 化 显著 性 P(Dlo; 



































P(alD)= (12.17) 


P(Dla)=P(Dhv, Pwlo)/ PwID, æ) 
=P(DIw)P(wlay/PCwID, aœ) (12.18) 
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原则 上 ， 计 算 显 著 性 需要 对 模型 参数 w 积 分 。 但 是 ， 利 用 似 然 函 数 、 共 因 先 验 分 
布 和 后 验 分 布 来 表示 ， 我 们 可 以 避免 积分 而 从 〈 12.18 ) RH: 


mm/ o% T(v,/2) 
v12)" ow T(vo/2) 








P(Dla)=(27) yo (12.19) 
Van 


参考 文献 [ 44 ] 讨论 了 显著 性 的 偏 导数 和 临界 点 ， 证 明了 众 数 jo=m。 
12.2.5 贝 叶 斯 假设 检验 


本 质 上 ， 迄 今 为 止 对 于 每 个 基因 在 每 种 条 件 下 的 对 数 表达 水 平 ， 都 是 用 高 斯 
分 布 来 建立 的 模型 。 如 果 所 关心 的 仅仅 是 一 个 给 定 的 基因 有 没有 发 生 改 变 ， 我 们 
可 以 直接 对 处 理 组 和 对 照 组 的 基因 对 数 表 达 水 平 的 差 建 模 。 这 些 差 值 可 以 两 两 考 
虑 或 成 对 考虑 ， 这 更 接近 于 目前 微星 列 技术 的 做 法 : 党 着 两 个 不 同 的 通道 ( 红 和 
绿 )， 测 量 在 处 理 条 件 和 对 照 条 件 下 表达 水 平 的 比值 的 对 数 。 

IBA LAREN, 0 对 x-x 建 模 。 在 给 定 的 数据 下 ， 设 定 零 假设 为 
=0 (无 变化 )。 为 了 避免 将 零 概 率 赋予 零 假设 ， 这 里 的 贝 叶 斯 方法 必须 赋予 p=0 
一 个 韭 零 的 先 验 概率 ， 这 可 能 总 得 有 些 随意 。 无 论 如 何 ， 根 据 前 面 对 共 轿 先 验 分 
HREF, URPON; vo, oj。 对 均值 4， 我 们 用 混合 密度 






































u= 0 p 
NO, PIA) : 1-p 


SHU ARNOR E, RA A-MEBBAM, LATS ARM 
Dirichlet 分 布 。 相 关 统 计量 log[P( 末 MP(B] 的 计算 作为 练习 留 给 读者 。 


1226 $ 现 


为 了 提高 效率 ,使 用 名 为 Cyber-T 的 网 络 服务 器 系统 实现 了 一 个 折 中 的 解决 
Bis. “24% 1 在 这 一 方法 中 ， 采 用 了 检验 法 ， 其 中 标准 差 按照 (12.13 ) 进行 了 正 
则 化 ， 自 由 度 则 与 相应 增加 的 样本 总 体 相关 ， 该 自由 度 偶尔 可 能 取 分 数 维 。 在 
CyberT 中 ， 无 论 是 对 诛 始 数据 还 是 对 对 数 化 以 后 的 数据 都 可 以 采用 单纯 的 或 引 
入 贝 叶 斯 方法 的 检验 。 

在 最 简单 的 情况 下 ， 取 jto=m， 用 户 必须 选择 背景 方差 8 及 其 强度 Vo。 参数 
表示 的 是 背景 方差 对 经 验方 差 % 的 置信 度 。vo 的 值 可 以 由 用 户 设 定 。n 越 小 ，vwo 应 


(12.20) 














AD 可 访 癌 http:f/128.200.5.223/CyberTi。 





该 越 大 。 一 个 简单 的 法 则 
的 数据 
一 个 合理 的 缺 省 值 (default) 是 二 10。 如 果 基 
最 低 检测 水 平 ， 那 么 可 以 








ntvl 在 不 同 基 








#12 
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是 : 为 了 合理 地 估计 标准 养 ， 需 要 !>2 个 点 ， 并 保证 
点 数目 x 不 同时 , 用 这 种 方法 处 理 数据 有 很 大 的 灵活 性 。 
的 活性 水 平 接近 于 所 使 用 技术 的 
世 它 作为 一 种 特 妹 情况 处 理 。 此 时 ， 基 因 的 测量 值 非常 


不 可 人 和信， 用 较 大 的 W 值 赋予 它们 较 强 的 先 验 概 率 也 许 更 明智 一 些 。 


对 oo 可 以 采用 所 有 观测 的 标准 差 ， 也 
有 一 种 录 活 的 实现 方法 ,四 


用 所 有 包含 在 大 


以 根据 情况 采 
小 为 ws 的 窗 里 的 相 邻 基 民 








某 类 基因 的 标准 差 。 


> WHER 























标准 差 。CyberT 对 所 有 基因 的 表达 水 平 进行 自动 排序 ， 几 户 可 以 自行 选择 窗 的 


大 小 。ws 的 缺 省 值 为 101， 
调节 窗 的 大 小 和 用 回归 估计 











12.2.7 h 真 




















对 应 于 所 研究 基 
t Rope 








上 下 各 50 个 基 


。 也 可 以 自 适应 地 








我 们 已 经 用 贝 叶 斯 方法 和 CyberT 分 析 了 大 量 已 发 表 的 和 未 发 表 的 数据 集 。 在 


每 个 我 们 分 析 过 的 高 密度 微 阵列 实验 中 都 观察 到 : 在 重复 实验 中 ， 表 达 水 平 的 方差 

















明显 随 均值 伸缩 (无论 是 在 原始 尺度 上 还 是 在 做 了 对 数 变换 以 后 )。 其 结果 是 ， 仅 
仅 根据 变化 倍数 来 确定 显著 性 阔 值 ， 对 于 表达 水 平 低 的 基因 来 说 过 于 随意 ， 而 对 于 














表达 水 平 高 的 基 





的 相关 结果 ， 但 我 们 发 现 贝 叶 斯 方法 还 是 比 简单 








些 , È 





些 ， 致 的 统计 方法 部 分 地 克服 了 由 于 实验 
如 果 要 比较 贝 叶 斯 方法 和 简单 的 检验 法 或 倍数 法 ， 参 考 文献 [19 











来 说 又 过 于 保守 。 虽 然 使 用 旧 的 方法 也 取得 了 一 些 具 有 生物 意义 
的 倍数 法 或 直接 的 :检验 法 要 好 一 
E 复 次 数 少 造 成 的 缺陷 。[”] 


给 出 的 高 


密度 阵列 实验 是 一 个 能 够 提供 很 多 信息 的 数据 集 ， 这 个 实验 比较 了 大 肠 杆菌 野生 


型 和 突变 型 细胞 的 球形 调控 如 
它 对 野生 型 和 突变 型 的 等 位 基 








县 白 IHF《 整合 宿主 因子 )。 





























这 个 数据 集 的 主要 优点 是 





都 进行 了 四 次 重复 实验 。 基 于 背景 标准 差 的 先 验 





分 布 的 正则 化 效果 可 以 参见 图 12-1 和 下 面 描述 的 仿真 。 此 图 清楚 地 显示 标准 差 在 














表达 水 平 的 取 值 范 














也 观察 到 其 他 情况 。 有 趣 的 是 
水 平方 关 要 比 表达 水 平 高 的 基 
也 许 需 要 一 个 





水 平 表达 的 基 























内 有 很 大 变化 ,大 致 随 表达 水 平 的 增加 单调 递减 ， 当 然 人 们 





在 这 些 图 里 ， 表 达 水 了 




















F 低 的 基因 对 应 的 对 数 表达 


对 应 的 方差 大 。 这 些 图 证 实 了 低 水 平 或 接近 背景 
东 较 大 的 W， 或 者 干脆 在 表达 分 析 中 忽略 它们 。 低 





水 平 表 达 基 央 测 量 值 的 方差 是 如 此 之 大 ， 以 至 于 在 很 多 情况 下 难以 检测 出 以 这 种 





水 平 表达 的 基因 有 任何 显著 变 
我 们 常常 发 现 这 样 的 情况 ， 


在 分 析 数 据 时 ，3 








即 表达 水 平 的 变化 倍数 很 大 ， 








但 在 贝 叶 斯 分 析 中 ,可 








应 的 p 值 并 不 意味 着 在 统计 上 有 任何 变化 。 相 反 地 ， 表 达 


水 平 的 变化 倍数 很 小 ， 但 在 贝 叶 斯 分 析 中 ， 这 种 变化 往往 被 认为 具有 很 高 的 显 
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对 照 组 





对 照 组 





标准 差 











ol Bid ol 

-14 -12 -10 -8 -6 -4 -14 -12 -10 -8 -6 -4 
实验 组 实验 组 

4 25 

3 2 


标准 差 























ol 
-14 -2 -10 -8 2 
均值 





图 12-1 大 肠 杆 菌 的 DNA 微 阵列 实 


ol 
-i4 -12 -10 -8 -6 -4 


均值 


验 


数据 由 P”” 标 记 的 逆转 录 RNA 与 包含 大 腑 杆菌 所 有 4 290 个 预测 基因 的 商业 化 尼龙 微 阵列 (Sigma 
Genosys ) 奈 交 获得 。 样 本 包括 一 个 野牛 株 (对照 ) 和 -个 球形 调控 蛋白 一 一 整合 宿主 因子 OHF) SAR 
失 株 (处理 ) 在 对 时 和 实验 两 种 情况 下 均 有 *=4， 水 平 办 表示 表达 水 平 的 对 数 的 均值 4&， 垂 直 轴 表示 相应 
BEE (o) 左边 一 列 对 应 的 是 原始 数据 ， 右 边 - 列 对 应 的 是 按照 {12.13 ) 进行 正则 化 的 标准 差 。 窗 口 


大 小 ws=101，I=10 ( 见 正文 )。 数 据 来 自 参 考 文献 [19] 。 


著 性 。 在 这 两 种 情况 下 ， 贝 叶 斯 方法 的 结论 比 单纯 倍数 法 的 结论 显得 鲁 棒 性 更 


强 一 些 ， 这 是 由 于 统计 上 不 显著 的 大 倍数 变化 常常 与 大 的 测量 误差 联系 在 一 





起 ， 


而 统计 上 显著 但 变化 倍数 小 于 2 倍 的 基因 常常 能 够 被 非常 准确 地 测量 。 在 参考 文 








献 [ 19 ] 这 样 的 实验 重复 水 平 上 ， 可 以 比较 贝 叶 斯 估 








计 方 法 与 ! 检 验 的 一 致 


我 们 发 现 从 IHF 数 据 集中 抽取 的 样本 数目 为 2 的 独立 样本 集中 ( 即 2 个 实验 样本 对 








2 个 对 照样 本 )， 用 贝 叶 斯 方法 得 到 的 120 个 最 显著 基 











集合 有 大 约 50% 的 基 

















相 














同 ， 而 用 ! 检 验方 法 得 到 的 120 个 最 显著 基因 集合 仅 有 大 约 25% 的 基因 相同 。 这 表 














明 做 2 次 重复 实验 ， 用 贝 叶 斯 方法 确定 基因 是 否 被 上 调 





在 很 大 的 不 确定 性 。 





或 下 调 ， 其 结果 的 一 致 性 
大 约 是 简单 检验 法 的 2 倍 。 尽 管 对 高 密度 微 阵列 实验 来 说 ， 只 做 2 次 实验 将 会 存 





为 了 进一步 评估 贝 叶 斯 方法 ， 可 以 假设 对 数 表达 水 平 服从 高 斯 分 布 ， 其 均值 








和 方差 的 取 值 范 














地 产生 一 个 数据 集 ， 其 d 
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上 与 参考 文献 [ 19 ] 中 数据 集 的 均值 和 方差 范 
和 对 每 一 种 参数 组 合 产生 1 000 组 数据 。 选 定 对 数 数据 的 均 

















相似 ， 然 后 人 为 





值 种 标准 差 ( 括号 内 ) 的 组 合 如 下 : -6(0.1), -8(0.2), -10(0.4), -11(0.7), 
一 12(1.0)。 利 用 这 些 仿真 数据 ， 我 们 可 以 比较 简单 倍数 法 (2 倍 和 5 倍 )、 简 单 ! 检 验 
法 和 采用 了 Cyber-T 缺 省 设置 的 贝 叶 斯 检验 法 的 性 能 。 表 12-1 给 出 了 主要 结果 ， 


























归纳 如 下 : 
表 12-1 从 1 000 个 基因 中 检测 出 的 阳性 数目 
g HEAT 比 什 简单 的 + 检验 法 页 时 斯 方法 

n 从 到 24 5 倍 p<0.05 | p<0.01 |p<0.05 [p<0.01 
2 -8 -8 1 o 38 7 73 9 
2 -10 -10 13 0 39 11 60 11 
2 -12 -12 509 198 65 10 74 16 
2 -6 -6.1 a 0 91 20 185 45 
2 -8 -8.5 167 0 276 7 730 419 
2 -10 -11 680 129 202 47 44) 195 
3 -8 -8 0 0 42 9 39 4 
3 -0 -10 36 0 5i Hn 39 6 
3 -12 -12 406 88 44 5 45 4 
3 -6 -6.1 0 0 172 36 224 60 
3 -8 -8.5 127 0 640 248 831 587 
3 -10 -li 674 62 296 139 550 261 
5 -8 -8 Qa o 53 13 39 8 
5 -10 -10 9 o 35 6 31 
5 -12 -12 354 36 65 11 54 4 
5 -6 -6.1 0 0 300 102 321 109 
5 -8 -8.5 70 0 936 708 966 866 
5 -10 -l1 695 24 688 357 752 441 

2v4 -8 a 0 35 4 39 6 

2v4 -it0 38 0 36 9 40 3 

2v4 =12 446 85 46 17 43 5 

2v4 -6 o 0 126 32 213 56 

2v4 -8 123 0 475 184 788 509 

2v4 -10 635 53 233 60 339 T4 



































数据 根据 对 数 尺度 上 的 正太 分布， 在 Arfin 等 人 2000 年 发 表 的 数据 的 范 转 内 产生 ， 对 每 组 参数 产生 
1 000 组 数据 。 对 数 数 据 的 均值 发 其 对 应 的 标准 卷 { 括号 内 ) 如 下 : -6(0.1), -8(0.2), -10(0.4), -11(0.7), 
-12(1.0)。 对 nm 的 每 个 取 值 ， 头 三 个 实验 对 应 无 变化 的 情况 ， 由 此 产 牛 假 阳 性 率 。 分 析 由 Cyber-T 在 缺 省 参数 
(ws=101， 厂 10) 下 完成 ， 自 由 度 为 n+vo-2。 
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。 若 有 5 次 重复 实验 (5 个 对 照 和 5 个 处 理 )， 贝 叶 斯 方法 和 :检验 法 的 结果 相 


似 。 


。 如 果 重 复 实验 的 次 数 很 少 〈2 或 3 次 )， 贝 叶 斯 方法 比 :检验 法 效果 好 。 


9 贝 叶 斯 方法 


和 {检验 法 的 假 阳性 率 与 期 望 一 致 ( 分别 为 0.05 和 0.01 )。 而 当 实 


验 的 重复 次 数 很 少 (也 就 是 2 次 ) 时 ， 贝 叶 斯 方法 的 假 阳性 率 会 提高 。 


。 比值 的 假 阳 


水 平时 ， 比 值 的 假 阳 性 率 高 得 难以 接受 。 








。 UR ae 





性 率 是 表达 水 平 的 函数 ， 在 低 表达 水 平时 要 高 得 多 。 在 低 表 达 


复 实验 的 次 数 ，p<0.01 的 册 叶 斯 方法 能 比 2 信 变化 法 检测 出 更 多 
， 但 在 低 表达 水 平时 除外 此 时 比值 的 假 阳 性 率 被 担 册 了 )。 








e 重复 实验 2 次 的 贝 叶 斯 方法 的 性 能 优 于 重复 实验 3 次 的 :检验 法 或 者 是 2 次 


对 4 次 Jo 

* 贝 叶 斯 方法 
这 提示 了 一 
数 。 


在 比较 3 个 处 理 对 3 个 对 照 ， 或 2 个 处 理 对 4 个 对 照 时 性 能 相似 。 
种 实验 方法 ， 即 通过 多 次 重复 对 照 实验 减少 处 理 实验 的 重复 次 








12.2.8 更 复杂 的 概率 模型 

我 们 已 经 发 展 了 阵列 数据 分 析 的 概率 体系 ， 解 决 了 现 有 方法 的 很 多 不 足 ， 
这 些 不 足 与 小 样本 偏差 以 及 如 下 事实 有 关 ， 即 在 不 同 的 表达 水 平 下 ， 不 同 倍数 
的 差异 具有 不 同 的 重要 性 。 这 一 概率 体系 是 用 高 斯 分 布 的 基因 独立 模型 进行 分 


层 员 时 斯 建 模 的 一 种 形式 。 虽 然 高 斯 分 布 是 否 合理 需要 进一步 验证 ， 但 我 们 可 
以 很 容易 地 将 其 他 分 布 引入 到 一 个 类 似 的 体系 中 。 虽 然 没有 什么 方法 比重 复 实 
BH ( 见 参考 文献 [355 ] )， 但 仿真 实验 和 受 控 的 重复 实验 OO 已 经 表明 ， 这 



































种 方法 对 数据 有 一 种 正则 化 效果 ， 它 比 传统 的 ! 检 验 法 或 简单 的 倍数 法 要 好 ， 可 
以 部 分 地 补偿 重复 实验 的 缺乏 。 

根据 具体 目标 和 算法 实现 ， 这 一 方法 可 以 在 很 多 方面 加 以 推广 。 例 如 ， 可 以 
高 线 计算 回归 星 数 用 以 建立 标准 差 和 表达 水 平 之 间 的 关系 ， 并 用 以 产生 背景 标 
差 。 这 一 方法 还 可 
大 小 可 以 由 回归 廿 数 的 导数 决定 。 在 标准 差 变化 相对 平缓 的 区 域内 ( 也 就 是 图 
12-1 中 -8~-4 的 范围 )， 和 窗口 较 小 ; 在 标准 差 快速 变化 的 区 域内 ( 也 就 是 图 12-1 




















以 自 适应 地 调整 窗口 的 大 小 来 计算 局 部 背景 方差 ， 例 如 窗口 的 
































的 -12 ~ -10 的 范围 )， 窗 口 较 大 。 也 可 以 实现 一 种 更 完整 的 贝 叶 斯 方法 ， 例 如 对 








边缘 后 验 分 布 【 在 


这 一 方法 还 可 


这 里 是 学 生 氏 分 布 ) 积分 来 估计 概率 Ph.~ jlD, ov 0)。 
以 扩展 成 更 复杂 的 方案 ， 以 及 (或者) 包含 了 实验 变量 梯度 的 











BRA CR) 针对 


时 间 序列 的 方案 。 其 中 一 个 例子 是 针对 以 下 情况 设计 的 方案 ; 
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细胞 在 不 同 种 类 的 刺激 下 〈 尿素 、 氨 、 过 氧化 物 )， 或 者 在 同一 种 刺激 但 刺激 的 
摩尔 浓度 不 同 (0、5、10mM ) 的 条 件 下 生长 。 一 般 化 的 线性 和 非 线 性 模型 可 以 
用 于 这 种 环境 。 然 而 ， 基 富 挑 成 性 的 问题 在 于 如 何 将 这 里 的 概率 体系 扩展 到 第 二 
层次 的 分 析 ， 把 基因 之 问 可 能 的 作用 和 相关 性 都 考虑 进来 。 如 果 两 个 或 多 个 基 囚 
在 某 种 处 理 条 件 下 表现 出 相似 的 行为 ， 那 么 在 它们 对 应 的 基因 族 层次 上 所 做 的 关 
于 表达 变化 的 处 理 方法 将 会 具有 更 强 的 鲁 棒 人 性 。 多 维 正 态 模型 和 高 斯 过 程 〈 附录 
E) 提供 了 这 一 屋 次 分 析 的 概率 模型 。 

举 个 例 了 ， 对 于 多 维 正 态 模 型 ，A 是 均值 向 量 ， 正 定 对 称 和 矩阵 荆 定 义 了 协 方 
EMM, HIAKAI UR RRA MTR: 















































CIEI” expl 3 . (12.21) 
将 归 一 化 标定 逆 人 铭 玛 分 布 加 以 推广 ， 得 到 基于 逆 Wishart 分 布 ( 附录 A ) HOSES SE 
验 分 布 。 递 Wishart 分 布 实际 上 是 对 标定 道 伽 玛 分 布 的 推广 ， 它 给 工 提 供 了 一 个 先 
验 分 布 。 与 一 维 的 情形 类 似 ， 这 个 共 施 先 验 分 布 具有 参数 〔 Hy, Ao /ho,vo,Ao )。 
三 服从 参数 为 Ww 和 AG Wishart 分 布 。 在 给 定 三 的 条 件 下 ，j 服 从 多 维 正 态 先 验 分 布 
NUE Ho Z1jo)。 后 验 分 布 具有 与 先 验 分 布 相同 的 形式 ， 是 多 维 正 态 分 布 和 逆 
Wishart HRR, BRA n An /MsvrAn)。 参 数 满足 








-A n 
H= mtn thain” 
A=Agtn 


Vs=Votn 
An = Ag+ 35 (X -m(X, -m (12.22) 
1 


Aon 
Agtn 


a 


+ 





{m= Ho }{m~ Ho) 


对 于 多 维 情形 ， 也 可 以 推导 出 类 似 于 〔12.13 ) 的 估计 。 

虽然 多 维 正 态 和 其 他 相关 模型 可 以 提供 一 个 较 好 的 起 点 ， 但 是 对 影响 阵列 数 
据 的 高 阶 效果 建立 好 的 概率 异型 仍然 处 于 发 展 的 起 步 阶段 。 迄 今 为 止 ， 大 多 数 方 
法 都 或 多 或 少 地 集中 在 聚 类 方法 的 专门 应 用 上 。 
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12.3 R 类 


12.3.1 HE È 


在 复杂 性 的 下 一 层次 上 ， 我 们 想 去 掉 一 些 简化 的 假设 ,例如 所 有 基因 都 是 独 
立 的 这 个 假设 。 我 们 将 从 这 里 开始 看 基因 的 协 方差 矩阵 ， 看 那里 是 否 存在 相关 基 
因 族 等 。 聚 类 分 析 不 仅 可 以 用 于 处 理 阵列 数据 ， 而 且 可 以 用 于 处 理 生物 信息 学 的 
其 他 很 多 问题 ， 包 括 一 些 序列 分 析 的 问题 。 因 此 这 里 将 试图 简要 这 全 面 地 介绍 聚 
类 ， 讨 论 有 时 不 局 限于 阵列 数据 的 分 析 。 

育 类 是 探索 性 数据 分 析 和 模式 发 现 的 一 种 基本 手段 ， 共 日 的 是 提取 数据 中 隐 售 
的 类 别 结构 。 但 是 ， 聚 类 是 一 个 模糊 的 概念 ， 它 没有 一 个 准确 的 定义 。 已 知 有 几 十 
种 到 类 算法 和 大 量 的 专门 的 涌 类 程序 被 用 于 DNA 微 阵列 数据 的 分 析 ， 其 类 型 涵盖 了 
SBIR WAY ARR, OTIS AIO 它们 没有 一 个 显而易见 的 共同 点 。 由 
于 雍 类 问题 的 多 样 性 和 “开放 性 ”， 不 大 可 能 给 出 率 类 的 一 个 系统 化 的 完备 处 理 杠 
架 。 丰 玄 类 问题 和 育 类 算法 中 ， 特 别 是 在 基因 表达 条 件 下 ， 有 很 多 重要 问题 需要 考 
Bo 


数据 类 型 

在 最 高 层次 上 ， 聚 类 算法 可 以 根据 被 育 类 数据 的 性 质 加 以 区 分 。 在 标准 情况 
下 ， 数 据点 是 欧 几 里 德 空间 内 的 向 量 ， 但 这 绝 不 是 惟一 的 可 能 。 除 了 向 量 数据 或 
用 绝对 坐标 表示 的 数值 型 数 据 以 外 ， 在 某 些 情况 下 ， 数 据 可 用 相对 坐标 表示 ， 此 
时 给 定 的 是 任意 两 点 之 间 的 距离 。 在 很 多 情况 下 ， 数 据 用 两 两 相似 程度 〔 或 不 相 
似 程度 ) 表示 ， 这 种 度量 常常 不 能 满足 距离 的 三 个 公理 性 假设 〈 非 负 性 、 对 称 性 
和 三 角 不 等 式 )。 还 存在 这 样 的 情况 ， 即 数据 轮廓 用 三 重 的 或 更 高 阶 次 的 关系 表 
示 , 或 只 给 出 了 所 有 可 能 的 两 两 相似 度 的 一 个 子 集 。 更 重要 的 是 ,在 有 些 情况 下 ， 
数据 既 不 是 向 重型 的 也 不 是 关系 型 的 ， 而 是 定性 的 ， 例 如 润 查 问卷 多 项 选择 题 的 
答案 。 有 时 也 把 这 称 做 名 词性 数据 。 虽 然 目前 基因 表达 阵列 数据 主要 是 数值 型 的 ， 
但 这 种 情况 在 将 来 有 可 能 会 发 生变 化 。 实 际 .上 ,“ 与 基因 正 交 ”的 维 涵盖 了 不 同 
的 实验 、 不 同 的 病人 、 不 同 的 组 织 和 不 同 的 时 间 等 ， 它 至 少 在 某 些 部 分 不 是 数值 
型 的 。 随 着 阵列 数据 数据 库 的 增长 ， 在 很 多 情况 下 ， 数 据 混杂 了 向 量 型 数据 和 名 
词性 数据 。 
















































































有 监督 聚 类 /无 监督 聚 类 
聚 类 算法 之 间 的 一 个 重要 区 别 在 于 它们 是 有 监督 的 还 是 无 监督 的 。 在 有 监督 
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聚 类 中 ， 辫 类 基于 一 个 给 定 的 参考 向 量 集 或 类 别 集 。 在 无 监督 聚 类 中 ， 没 有 一 个 
事先 定义 的 向 量 集 或 类 别 集 。 混 合 方法 也 是 可 能 的 ， 可 以 先进 行 无 监督 聚 类 ， 紧 
跟着 再 进行 有 监督 聚 类 。 目 前 ， 基 因 表 达 阵 列 实验 尚 处 于 早期 阶段 ， 像 k 均 值 和 
自 组 织 映 射 [50 1 这 样 的 非 监 督 缚 类 方法 是 最 常用 的 。 但 也 有 人 尝试 过 有 监督 的 育 
类 ， 他 们 用 功能 信息 或 非 监督 聚 类 方法 预先 确定 一 些 族 ， 然 后 用 神经 网 络 或 支持 
向 量 机 ( 附录 B ) 这 类 可 以 学 习 数据 类 别 之 间 决 策 边界 的 分 类 器 ， 将 新 基因 归 到 
PERRA, 




















相似 度 

一 些 聚 类 算法 〈 包 括 几 种 形式 的 分 级 聚 类 算法 ) 的 起 点 是 聚 类 对 象 的 一 个 两 
两 相似 度 矩 阵 。 准 确 地 定义 相似 度 非 常 关键 ， 于 以 在 很 大 程度 上 影响 育 类 算法 的 
输出 。 举 个 合子， 在 序列 分 析 中 ， 相 似 度 可 以 用 一 个 对 间隙 和 替换 打分 的 分 值 答 
阵 以 及 一 个 比 对 算法 来 定义 ; 在 基因 表达 的 分 析 中 可 以 应 用 不 同 的 相似 度 定义 。 
两 个 明显 的 例子 是 欧 几 里 德 虐 离 (或 者 更 一 般 的 距离 ) 和 表达 水 平 向 量 的 相关 
性 。Pearson 相 关系 数 就 是 两 个 标准 化 向 量 的 点 积 ， 战 它们 夹 角 的 余弦 。 它 可 以 用 
于 上 度量 不 同 实 验 条件 或 不 同时 间 点 下 的 基因 对 。 根 据 情况 的 不 同 ， 每 种 相似 件 度 
量 都 有 各 自 的 优 缺点 ， 因 而 或 多 或 少 适 合 于 某 种 分 析 。 例 如 ， 相 关 性 能 够 反映 形 
状 的 相似 件 但 不 强调 两 组 测量 的 数值 关系 (magnitude )， 而 对 偏差 outlier ) 十 
分 敏感 。 再 比如 考虑 测量 两 个 在 背景 表达 水 平 附近 涨 落 的 不 相关 基因 ， 这 样 的 基 
若 以 欧 几 里 德 距 离 来 度量 非常 相似 距离 接近 于 0 )， 但 车 以 相关 性 来 度量 却 很 
不 相似 ( 相关 性 接近 于 0 )。 类 位 地 ， 考 虑 两 个 向 量 1000000000 和 0000000001。 在 
某 种 意义 上 它们 很 相似 ， 因 为 它们 都 几乎 为 0。 但 在 另 一 方面 ， 由 于 分 别 在 头 尾 
两 个 位 置 存在 偏差 ， 它 们 的 相关 人 竹 接近 于 0。 















































类 别 数 

聚 类 的 类 别 数 K 的 选择 是 一 个 非常 韩 手 的 问题 ， 它 取决 于 我 们 在 什么 尺度 上 
观察 数据 。 虽 然 有 人 尝试 过 发 展 自动 确定 类 别 数 的 方法 [484 但 是 可 以 肯定 ， 通 
过 半 手 工 的 方法 反复 试验 仍然 是 最 有 效 的 一 种 确定 类 别 数 的 手段 ， 现 阶段 对 微 阵 
列 数 据 来 说 尤其 如 此 。 


代价 函数 和 概率 表述 

任何 对 给 定数 据 集 诊 类 的 严格 讨论 ， 都 要 预先 给 出 一 种 原则 性 的 方法 ， 来 比 
较 同一 数据 集 的 不 同 聚 类 结果 ， 这 样 就 需要 某 种 形式 的 易于 计算 的 全 局 代价 /误差 
函数 。 这 样 ， 素 类 的 目标 就 变 成 了 最 小 化 这 一 函数 。 这 也 被 称 为 参数 化 聚 类 ， 与 
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相对 的 是 非 参 数 取 类， 后 者 只 有 一 些 局 部 函数 可 以 采用 。!724 


一 般 来 说 ， 至 少 对 数值 型 数据 而 言 ， 





这 一 函数 依赖 于 以 下 一 些 量 : 类 中 心 


类 内 各 点 与 相应 类 中 心 的 距离 、 类 内 平均 相似 度 等 。 对 于 数据 的 聚 类 结果 ， 这 样 

一 个 函数 往往 是 不 连续 的 。 这 里 依然 没有 普遍 适用 的 函数 ， 代 价 函 数 ( cost 

function ) 必须 根据 具体 的 问题 来 确定 ， 不 同 的 代价 函数 会 导致 不 同 的 结果 。 
鉴于 概率 方法 和 概率 建 模 的 优点 ， 将 聚 类 的 代价 函数 与 相应 的 概率 模型 的 负 





对 数 似 然 度 相 结合 ，， 


这 个 想法 很 吸引 人 。 虽 然 这 从 形式 上 总 是 可 能 的 ， 但 是 我 们 





最 关心 的 还 是 : 在 什么 时 候 隐 含 概率 模型 的 结构 及 其 相关 的 独立 性 假设 是 清晰 的 。 


也 就 是 说 什么 时 候 代价 函数 中 的 求 和 项 反映 了 隐 含 的 概率 和 变量 的 








子 结构 。 我 








们 将 要 看 到 ， 混 合 模型 正 是 如 此 。 在 混合 模型 中 ，k 均 值 聚 类 算法 可 以 看 做 EM 算 


法 的 一 种 形式 。 








在 余下 的 部 分 里 ， 我 们 将 更 详细 地 讨论 两 种 基本 的 聚 类 算法 ; 分 级 聚 类 和 k 


均值 聚 类 ， 它 们 都 可 以 用 于 DNA 微 阵列 数据 分 析 。 
Faw. AA 








量化 、 OO) 主 成 分 分 析 、 民 
考 文献 中 找到 。 


分 级 聚 类 








12.3.2 











他 很 多 相关 方法 ,包括 矢量 
织 映 射 、 神 经 网 络 和 SVM 等 可 以 在 参 








聚 类 可 以 通过 分 级 的 分 支 过 程 得 到 。 
从 数据 中 自动 建立 一 棵 树 。 对 于 基 

















的 方法 。 这 种 方法 的 输出 是 一 棵 树 而 非 一 
往往 不 明显 ， 因 为 类 别 是 通过 在 树 的 某 些 点 前 枝 得 到 的 ， 而 这 一 过 程 或 多 或 少 带 


有 随意 性 











此 有 一 些 方法 ， 可 以 根据 两 两 相似 度 





表达 的 情况 ， 这 就 是 参考 文献 [ 160 ] 所 用 
组 类 别 。 特 别 地 ， 如 何 从 树 中 定义 类 别 


参考 文献 [ 160 ] 用 的 标准 算法 从 相关 〈 pr 距离 或 相似 度 ) 矩阵 C 开 始 迭 代 计 














算 一 个 标准 树 图 ， 把 所 有 元 素 集成 到 一 棵 树 里 。 在 算法 的 每 一 步 ; 
e 计算 当前 矩阵 中 两 个 最 相似 的 元 素 ( 具有 最 大 的 相关 性 )， 生 成 一 个 节点 

















将 它们 结合 在 一起 。 


© 通过 求 两 个 元 素 表 达 谱 (expression profile ) ( 或 向 量 ) 的 平均 (缺失 的 数 
据 可 以 忽略 ， 求 平均 时 可 以 按照 向 量 中 元 素 的 个 数 进行 加 权 ) 生成 新 节点 
的 表达 谱 (或 向 量 )。 也 可 以 不 计算 表达 谱 ， 而 用 距离 的 加 权 平 均 来 估计 


新 的 类 中 心 之 间 的 号 离 。 











。 用 新 节点 取代 两 个 结合 的 元 素 ， 按 照 新 计算 的 表达 谱 《或 向 量 ) 计算 新 的 





相关 矩阵。 这 个 机 


关 和 矩阵 比 原来 的 矩阵 要 小 一 些 。 


”从 N 个 点 开始 ， 这 个 过 程 将 最 多 重复 W-1 次 ， 直 至 只 剩 下 1 个 单 节点 。 
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生物 学 家 很 熟悉 这 个 算法 ， 它 被 用 于 序列 分 析 、 系 统 进化 树 和 平均 连锁 聚 类 
分 析 。 正 如 已 经 指出 的 ， 在 建 六 了 这 样 一 个 标准 树 图 以 后 ， 如 何 显示 结果 以 及 如 
何 选 取 类 别 仍然 是 个 问题 。 在 每 个 节点 上 ， 两 个 由 节点 结合 在 一 起 的 元 素 都 可 以 
被 排 到 另 一 个 元 素 的 右边 或 左边 。 由 于 有 N-1 次 结合 ， 与 权 的 结构 一 致 的 线性 排 
列 的 总 数 为 2 。 一 个 最 优 的 线性 排列 要 使 排列 中 所 有 相 邻 的 一 对 节点 的 结合 
似 度 的 总 和 达到 最 大 ， 但 一 般 来 说 我 们 不 能 有 效 地 计算 出 这 样 一 种 最 优 排列 。 参 
考 文献 [160 ] 用 了 一 种 启发 式 近似 算法 ， 它 用 平均 表达 水 平 、 染色 体位 置 和 最 
大 诱导 时 间 (time of maximal induction) 对 基因 加 权 。 通 过 对 一 组 基因 表达 数据 
聚 类 得 到 的 主要 类 别 确实 显示 出 了 生物 学 上 的 相关 性 。 


12.3.3 均值 聚 类 法 、 混 合 模型 和 EM 算法 


k 均 值 聚 类 法 

在 所 有 的 皮 类 算法 中 ，k 均 值 聚 类 法 :221 作为 针对 降 含 混合 模型 的 EM 算法 的 
一 种 形式 ， 可 能 具有 最 清晰 的 概率 表述 。 在 k 均 值 聚 类 法 的 一 种 典型 实现 中 ,类 
别 数 被 轩 定 为 一 个 值 K。 一 开始 就 给 各 类 选择 代表 点 或 类 中 心 ， 这 样 K 个 代表 点 或 
类 中 心 的 选择 或 多 或 少 带 有 随意 性 。 它 们 也 被 称 做 质心 《 centroid ) 或 原型 
(prototype )。 然 后 在 每 一 步 : 

e 把 每 个 点 分 到 离 它 最 近 的 代表 点 所 代表 的 类 内 ; 

。 分 类 后 计算 新 的 代表 点 ， 比 如 取 每 一 个 新 类 的 平均 或 重心 ; 

重复 上 面 两 个 步骤， 直到 系统 收敛 或 涨 落 很 小 。 
此 我 们 要 注意 ， k 均 值 聚 类 法 要 求 选择 类 别 数 ， 要 求 可 以 计算 点 与 点 之 间 
的 距离 或 相似 度 ， 并 且 对 于 每 一 类 在 给 定 其 成 员 时 可 以 计算 代表 点 。 

当代 价 函 数 与 一 个 隐 含 的 概率 混合 模型 >?] 对 应 时 ，k 均 值 聚 类 法 是 经 典 
EM 算法 的 一 种 在 线 近似 ， 而 且 它 -一般 会 收敛 到 一 个 解 ， 这 个 解 至 少 是 一 个 局 部 ML 
或 MAP 解 。 一 个 经 典 情况 是 在 混合 高 斯 模型 中 应 用 欧 几 里 德 距 离 。 参 考 文献 [28 ] 
给 出 了 它 在 序列 聚 类 中 的 一 个 相关 应 用 。 


混合 模型 和 EM 算法 
为 了 更 进一步 理解 这 一 点 ,设想 一 个 数据 集 D=(di,…,dw) 和 一 个 隐 含 的 混合 概 
率 模型 ， 该 模型 有 Kk 个 分 量 ,分 量具 有 如 下 形式 : 






























































K K 
P(dO= DPM)P(dM)= > Pd (12.23) 
k=l kel 


HA20, Saal, AMID. PARR EIR AY HO BY BB 
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数 和 对 混合 系数 的 归 一 化 约束 由 式 


f= Sof Sam Ci fda (12.24) 
i=l 1 
和 相应 的 临界 方程 


Pla) 
b> -Fy -u=0 (12.25 ) 


i=} 


3è 


给 出 。 将 每 个 临界 方程 乘 以 久 ， 然 后 对 i 味 和 ， 马 上 就 可 以 得 到 拉 格 朗 日 算 子 =N。 
再 将 每 个 临界 方程 乘 以 PQ40= 和 ， 用 如 下 形式 的 贝 叶 斯 定理 


P(M,ld)=P(dJM,)P(M)/PCd,) (12.26) 
就 可 以 得 到 


Aye +. LS Pind) (12.27) 


isl 


E, BEHR RRM AAT ed OR OLR EAE, BE 
BEM AE AO SSO Ew A DL. AEGON H eHow, oR SPB 


























a A, Pd (al 
12.28 
avy AP) wy (1228) 
将 (12.26) RA (12.28), WEA, BAMBARA E 
N 
Y posla) log P(dlMs) -0 (12.29) 
i=l 


ki 


用 于 估计 参数 的 ML 方程 ， 是 分 别 从 每 个 点 得 到 的 ML 方程 91ogP(diMY9w=0 的 加 
权 平 均 。 和 (12.27 ) 一 样 ， 权 重 值 是 4 隶属 于 每 一 类 的 概率 。 
和 HMM 一 样 ， 可 以 奈 伐 使 用 ML 方程 (12.27 )》 和 (12.29) 来 搜索 ML 估计 ， 
给 出 了 EM 算法 的 另 一 个 例子 。 在 E 步 又， 对 每 个 数据 点 ， 估 计 它 对 每 个 混合 
分 量 的 隶属 概率 ( 隐 变 量 )。M 步 又 相当 于 K 个 不 同 的 估计 问题 ， 每 个 数据 点 对 与 
每 个 分 量 相关 联 的 对 数 似 然 度 都 有 一 定 贡献 ， 这 个 贡献 被 估计 出 的 隶属 概率 加 权 。 
根据 隶属 概率 PCdld) 在 E 这 一 步 是 以 何 种 方式 估计 《 硬 估计 还 是 软 估计 ) 的 ， 同 
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样 的 算法 可 以 有 不 同 的 结果 。 上 面 给 出 的 x 均 值 聚 类 法 使 用 硬 佑 计 ， 其 隶属 概率 
要 么 是 9， 要么 是 1， 每 个 点 只 能 属于 一 个 类 别 。 这 类 似 于 用 HMM 的 EM 算法 的 
Viterbi 版 本 ， 其 中 只 用 到 了 与 一 个 序列 相关 的 最 优 路 径 ， 而 不 是 所 有 可 能 路 径 构 
成 的 家 族 。 算 法 的 M 这 一 步 也 有 几 种 不 同 的 版 本 ， 例 如 参数 wk 可 以 使 用 梯度 下 降 
法 佑 计 ， 也 可 以 通过 精确 求解 (12.29 ) 得 到 。 众 所 周知 ， 一 个 点 集 的 重心 能 够 最 
小 化 该 集合 与 任何 固定 点 的 平方 距离 。 因 此 在 球形 高 斯 分 量 的 混合 模型 中 ， 前 面 
描述 的 k 均 值 到 类 法 的 M 这 一 步 ， 最 大 化 了 相应 的 对 数 似 然 度 的 平方 ， 给 出 了 每 
个 高 斯 分 量 均值 的 ML 估计 。 
也 可 以 对 每 一 族 的 参数 及 (或 ) 混合 系数 引入 如 下 形式 的 先 验 分 布 





























P(d)= ¥ Pdr, w) Pw IM DP) (12.30) 
k=l 
这 将 导致 更 复杂 的 分 级 概率 模型 ， 它 们 在 处 理 DNA 阵 列 数据 甚至 是 序列 数据 时 ， 
可 能 会 更 有 用 。 例 如 在 序列 数据 中 ， 这 就 相当 于 用 不 同 的 避 子 产生 序列 ， 山 子 来 
自 于 不 同 的 工厂 ,工厂 分 散在 不 同 的 国家 ， 等 等 ; 在 每 一 层次 上 ， 对 每 种 相应 的 
属性 都 有 一 个 概率 分 布 。 就 我 们 所 知 ， 对 于 这 类 分 级 混合 模型 ， 还 没有 研究 者 系 
统 地 在 这 种 环境 中 研究 过 。 














12.4 ”基因 调控 





最 后 ， 就 分 析 的 第 三 个 层次 而 言 ，DNA 微 阵列 表达 数据 很 自然 地 导致 了 基 上 
调控 的 很 多 问题 。 在 系统 的 层次 上 理解 基因 调控 是 生物 学 中 最 有 趣 同 时 也 是 最 富 
挑战 性 的 问题 。 有 关 这 个 问题 的 绝 大 部 分 原理 还 没有 被 发 现 。 这 里 只 提 一 些 主要 
的 研究 方向 并 给 出 -- 些 参考 文献 。 

其 中 一 个 研究 方向 是 对 调控 区 进行 数据 挖掘， 例如 寻找 转录 因子 的 DNA 结 合 
位 点 和 其 他 调控 motif O - 段 具有 特色 功能 的 生物 序列 )。 在 一 定 程度 上 ， 这 种 搜 
索 可 以 在 基因 组 层次 上 用 纯 计算 工具 进行 。!505342?2] 其 基本 思想 是 计算 从 种 长 度 
为 N 的 词 ( N-mers ) 在 全 基因 组 或 基因 组 的 一 个 特定 子 集 ( 如 所 有 基因 的 上 游 区 
J) 里 出 现 的 次 数 ，N 的 值 通常 为 3 到 10。 出 现 次 数 超过 一 般 水 平 的 词 称 为 超频 词 
(overrepresented N-mers ), 我 们 对 超频 词 特别 感 兴趣 ， 它 们 构成 了 很 多 已 知 的 调 
控 motif。 超 频 词 的 分 布 也 带 有 很 多 信息 。: ?1 当然 ， 在 任何 情况 下 ， 超 频 现象 必 
须根 据 -一 个 好 的 统计 背景 模型 来 评估 ， 这 样 的 背景 模型 可 以 是 一 个 从 实际 计数 中 
得 来 的 只 有 一 定 阶 次 的 马尔 可 夫 模 型 。 如 果 在 此 基础 上 还 有 基因 表达 数据 可 用 ， 
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数据 挖 据 过 程 还 可 以 做 进一步 调整 ， 例 如 在 给 定 条 件 下 被 上 调 〔up-regulated ) 








[或 下 调 (down-regulated) ] 的 基 











管 怎 么 说 ， 昌 前 按照 这 种 方法 找到 
数据 库 和 现 有 文献 中 找到 ， 其 他 大 部 分 

另 一 个 更 深入 的 研究 方向 是 试 
(如 一 条 代谢 途径 或 一 组 共 调 控 基 因 
要 障 得 是 我 们 尚 不 清楚 转录 在 分 子 习 
声 在 基因 调控 中 扮演 的 角色 。[2829 而 ] 



































且 这 样 的 调控 网 络 看 上 去 都 非常 复杂 。[5”] 在 理论 方面 ， 一 些 数 学 范式 已 经 被 用 于 
络 建 模 。 这 不 仅 包括 离散 模型 ， 如 布尔 网 [ERS (Kauffman) 的 先驱 性 
还 包括 了 基于 微分 方程 的 连续 模型 ， 如 连续 反馈 神经 网 络 '”! 1 或 
、 概 率 图 模型 和 贝 叶 斯 网 络 。["% 1 但 没有 一 个 范式 人 
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作 [ 
Power 


映 基 











19.311,312 ] ] ， 


537,466.258 | 
-law 范 式 


调控 的 所 有 变量 ， 这 一 

















的 上 
motif 结 构 和 位 置 的 多 变性 ， 像 EM 和 吉 布 斯 采样 这 样 的 概率 算法 ， 很 自然 会 在 
motif 的 寻找 中 扮演 很 重要 的 角色 参考 MEME 和 CONSENSUS 之 类 的 程序 )。 也 
的 motif， 只 有 一 小 部 分 能 在 TRANSFAC 56@ 1 


图 在 全 局 层 
) 对 
平 | 





游 区 内 寻找 超频 现象 。 


有 待 于 未 来 实验 检验 。 








昌 目 前 具备 详细 信息 的 调控 网 络 还 很 少 ， 


会 议 文集 中 找到 。 











是 今后 几 十 年 生物 信息 学 要 努力 解决 的 中 心 问题 。 





[ 89,231,535,111,270 ] 由 于 


次 上 ， 或 从 革 些 特定 的 局 部 S05 
网 络 进行 建 模 或 推断 。 这 里 的 一 个 主 
上 的 所 有 细节 。 例 如 ， 我 们 还 不 完全 理解 品 


K 


况 








ET 


E 够 反 
领域 的 大 部 分 工作 还 等 着 人 们 去 做 。 有 关 这 一 活跃 领 
域 的 更 多 文献 ， 可 以 在 过 去 几 年 的 ISMB . PSBAIRECOMB 
统 层次 上 理解 生物 ( 例如 参考 文献 [ 88,309,239,289,576 ] 
蛋白 质 网 络 、 信 号 网 络 、 代 谢 网 络 以 及 免疫 系统 或 神经 网 络 这 样 的 特定 系统 可 


在 系 
中 的 研究 )， 基 因 网 络 、 
[能 都 
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13.1 


迅速 积累 的 资源 





众所周知 ， 在 信息 处 理 领域 ， 因特网 上 的 资源 更 新 比 儿 乎 其 他 所 有 信息 过 程 

的 变化 都 要 快 。 生 物 序 列 分 析 的 专用 工具 也 是 如 此 。 新 的 工具 不 断 产生 并 投 和 信使 
用 ， 现 有 的 工具 逐渐 过 时 。 而 在 生物 信息 学 中 的 许多 专业 领域 中 ， 计 算 分 析 作为 
一 个 强大 工具 逐渐 替代 了 实验 研究 的 许多 重要 部 分 。 
特 网 上 所 提供 的 许多 工具 并 不 是 由 一 些 大 机 构 或 研究 组 织 开发 的 ， 而 是 由 
一 些 个 人 研究 者 开发 的 ， 他 们 当中 的 许多 人 都 只 在 短期 内 活 牙 于 这 一 研究 领域 。 
资金 的 情况 每 年 也 有 所 不 同 ， 甚 至 对 一 些 主要 的 计算 服务 机 构 也 是 如 此 。 这 意味 
着 一 些 链接 不 能 得 到 经 常 更 新 ， 许 多 服务 器 也 不能 够 每 天 24 小 时 运转。 如 果 一 项 
服务 很 受 欢迎 ， 那 么 它 的 服务 器 通常 会 得 到 充分 及 叶 地 更 新 。 但 是 在 许多 情况 下 ， 
一 些 联合 机 构 所 建立 的 镜像 服务 替代 了 主 服 务 器 的 更 新 ， 如 华盛顿 特区 的 NCBI、 
英国 Hinxtona 的 EBI 和 日 本 的 DDIB。 
习 特 网 这 个 “开放 式 生物 信息 中 心 ” 的 一 个 极其 令 人 困惑 的 方面 在 于 许多 网 
站 提供 间 一 类 型 的 服务 ， 而 这 些 服务 基于 不 同 的 实现 方法 。 例 如 ， 蛋 白质 的 二 级 
结构 预测 、 基 因 发 现 和 内 含 子 的 剪接 位 点 预测 就 是 这 种 情况 。 大 多 数 网 络 还 提供 
蛋白 质 中 的 氨基 酸 水 滚 性 的 预测 。 由 于 这 些 方法 大 都 根据 不 同 的 数据 集 构造 并 测 
试 ， 因 此 即使 专家 也 很 难 客观 地 判断 各 种 方法 的 优 劣 。 通 常 ， 只 使 用 一 种 特定 的 
方法 有 许多 不 利之 处 ， 所 以 要 遵循 统计 学 的 “平均 结果 优 于 单一 选择 ”这 一 原则 ， 
综合 多 种 方法 才 可 以 提高 结果 的 鲁 棱 性 和 可 信 性 。 
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建立 算法 评判 基准 是 极其 困难 的 ， 因 为 作为 评判 标准 的 序列 集 经 常 与 构造 某 
些 算法 所 使 用 的 序列 集 有 很 大 程度 的 重 释 。 有 些 算法 具有 可 以 “ 记 住 ”训练 数据 
的 内 在 机 理 ， 而 另 一 些 则 仅 设计 为 提炼 数据 集 平均 的 或 一 般 性 的 特征 。 对 于 这 些 
算法 ， 应 用 于 训练 集 所 表现 出 的 性 能 必然 优 于 它们 在 测试 集中 所 表现 出 的 性 能 。 

正如 第 1 章 (第 1.2 节 ) 中 所 描述 的 ， 序 列 数据 总 量 呈 指数 增长 。 幸 运 的 是 ， 
计算 机 或 工作 站 的 计算 能 力也 呈 指 数 增 大 ， 而 且 它们 的 价格 一 直 在 下 降 。 很 久 以 
来 ， 当 计算 机 的 价格 降 为 大 约 诛 来 的 一 半 时 ， 它 的 速度 就 会 提升 到 原来 的 2 倍 。 
这 意味 着 每 6 到 10 个 月 ， 从 经 济 学 角度 来 看 ， 应 用 查询 序列 或 正则 表达 式 在 公共 
数据 库 中 进行 同样 的 搜索 所 需 的 花费 就 会 变 为 原来 的 2 倍 。 这 还 意味 着 算法 必须 
经 常 更 新 以 维持 搜索 水 平 。 


























13.2 ”关于 数据 库 和 工具 的 综合 目录 


长 期 以 来 ， 在 生物 序列 分 析 领域 有 一 个 传统 做 法 ， 那 就 是 建立 已 有 的 数据 库 
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图 3-1 一 些 互联 网 上 可 用 的 数据 库 
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的 综合 日 录 《 database over database )， 用 于 管理 大 量 资源 。 最 早期 的 这 种 数据 库 之 
一 是 LiMB ( Listing of Molecular Biology database， 分 子 生 物 学 数据 库 列表 )， 过 去 
这 一 数据 库 通过 硬 拷 负 发 布 。'*”- 今天 ， 更 加 灵活 的 万 维 网 (WWW) 方式 成 为 
传播 数据 的 惟一 合理 的 媒介 。 人 们 可 以 及 时 跟踪 和 更 新 网 络 链接 。LiMB 包 括 了 
与 分 子 牛 物 学 有 关 的 数据 库 维护 信息 。 它 的 建立 是 为 了 使 研究 机 构 更 方便 地 确定 
和 找到 他 们 所 需 的 数据 集 。 
下 面 各 节 包 括 了 数据 库 综合 日 录 、 主 要 的 公共 序列 数据 库 和 有 代表 的 预测 
服务 器 的 链接 列表 。 实 际 上 ， 这 些 列表 都 应 该 是 每 日 更 新 ， 我 们 的 目的 也 不 是 
提供 WWW 的 详细 指导 。 这 些 资 料 只 是 有 助 于 对 实验 数据 进行 严格 分 析 的 诸多 
工具 中 的 一 些 。 我 们 推荐 读者 定期 浏览 一 些 原始 的 数据 库 ， 并 使 用 一 般 的 
WWW 搜 索引 擎 寻找 最 新 的 资源 。 下 面 的 大 部 分 链接 都 来 源 于 由 丹麦 生物 序列 
分 析 中 心 的 简 ， 汉 森 (Jan Hansen) 创建 的 网 页 ( htep://www.cbs.dtu.dk/ 
biolink.html )， 它 们 主要 关注 序列 和 注释 的 检索 ， 用 于 提交 序列 的 网 站 没有 包 
括 在 内 。 








13.3 分子 生物 学 数据 库 综 合 日 录 


SRS 序 列 查 源 系 统 (分子 生 物 学 数据 库 网 络 浏览 器 ) 
http://www.embl-heidelberg.de/srs5/ 
分 子 生 物 学 数据 库 及 服务 器 概览 
http://www.ai.sri.com/people/pkarp/mimbd/rsmith.html 
BioMedNet 图 书馆 
http://biomednet.com 
DBGET 数 据 库 链接 
http://www.genome.ad.jp/dbget/dbget.links.html 
哈佛 基因 组 研究 数据 库 与 精 选 服务 器 
http://golgi.harvard.edu 
约翰 斯 ， 霍 普 金 斯 大 学 (Johns Hopkins University) OWL 网 络 服务 器 
hetp://www.gdb.org/Dan/proteins/owl.html 
生物 网 络 服务 器 索引 ，USCS 
http://info.er.usgs.gov/network/science/biology/index.btml 
分 子 生物 学 数据 库 列 表 (LIMB) 
gopher://gopher.nih.gov/1 1/molbio/other 
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病毒 学 的 WWW 服 务 器 ，UW-Madison 
http://www.bocklabs. wisc.edu/Welcome.html 

UK MRC 人 类 基因 组 图 谱 计划 研究 中 心 
http://www.hgmp.mre.ac.uk/ 

生物 学 家 和 生物 化 学 家 的 WWW 资 源 
http://www.yk.rim.or.jp/~aisoai/index.html 

其 他 生物 网 络 服务 器 的 链接 
http://www.gdb.org/biolinks.htm] 

分 子 模型 服务 器 与 数据 库 
http://www.rsc.org/lap/rsccom/dab/ind006links.htm 

EMBO 实 际 结构 数据 库 
http:/xray.bme.uu.se/embo/structdb/links.html 

蛋白 质 科学 家 的 网 络 资源 
http://www.faseb.org/protein/ProSciDocs/WW WResources.html 

ExPASy 分 子 生物 学 服务 器 
http://expasy.heuge.ch/cgi-bin/listdoc 

抗体 研究 网 页 
http://www.antibodyresource.com 

生物 信息 学 网 址 
http://biochem. kaist.ac.kr/bioinformatics.html 

乔治 ， BRAKE (George Mason University) 的 生物 信息 学 与 计算 分 子 生 物 

学 专业 
http://www.science. gmu.edu/~michaels/Bioinformatics/ 

INFOBIOGEN 数 据 库 目 录 

http://www.infobiogen.fr/services/dbcat/ 
家 生物 技术 信息 研究 室 
http://www.nbif.org/data/data.html 

人 类 基因 组 计划 情报 
http://www.ornl.gov/TechResources/Human_Genome 

生物 学 软件 及 数据 库 档案 
http://www.gdb.org/Dan/software/biol-links.html 

蛋白 质 组 研究 : 功能 基因 组 学 的 新 前 沿 〈 著 作 日 录 ) 
http://expasy.hcuge.ch/ch2d/LivreTOC. html 
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13.4 ”序列 与 结构 数据 库 


13.41 ”主要 的 公共 序列 数据 库 





EMBL WWW 服 务 器 
http://www.EMBL-heidelberg.de/Services/index.html 
GenBank 数 据 库 但 询 形式 【得 到 GenBank 的 一 个 记录 ) 
http://ncbi.nlm.nih.gov/genbank/query_form.html 
AoA PRR EW WWI E 19 IT PDB SHS ) 
http://www.resb.org 
欧洲 生物 信息 学 研究 中 心 (EBL) 
http://www.ebi.ac.uk/ 
EBI 产 业 支 持 
http://industry.ebi.ac.uk/ 
SWISS-PROT ( 蛋白 质 序列 库 ) 
http://www.expasy.ch/sprot/sprot-top.html 
PROSITE ( 蛋白 质 功 能 位 点 ) 
http://expasy.hcuge.ch/sprot/prosite.html 
大 分 子 结 构 数 据 库 
http://BioMedNet.com/cgi-bin/members!/shwtoc.p!7J:mms 
Molecules R Us ( 搜索 及 观察 一 个 蛋白 质 分 子 ) 
http://emm.info.nih.gov/modeling/net_services.htm] 
PIR 国 际 蛋 白质 序列 数据 库 
http://www.gdb.org/Dan/proteins/pir.html 
SCOP (蛋白 质 的 结构 分 类 ), MRC 
http: //scop.mre-lmb.cam.ac.uk/scop/data/scop.1 html 
洛斯 阿拉 莫 斯 (Los Alamos ) 的 HIV 序 列 数据 库 
http://hiv-web.lanl.gov/ 
洛斯 阿拉 莫 斯 的 HIV 分 子 免 疫 数据 库 
http://hiv-web.lanl.gov/immuno/index.html 
TIGR 数 据 库 
hitp://www.tigr,org/tdb/tdb.html 
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NCBI WWW Entrez 浏 览 器 
hittp://www.ncbi.nlm.nih.gov/Entrez/index.html 

剑桥 结构 数据 库 〈 小 分 子 有 机 的 及 有 机 金属 的 结晶 结构 ) 
hittp://www.ccde.cam.ac.uk 

基因 本 体 论坛 


http://genome-www,stanford.edu/GO/ 
13.4.2 ”专业 数据 库 


ANU 生 物 信息 学 超 媒 体 服务 (病毒 数据 库 、 分 类 及 病毒 的 命名 法 ) 
http:/Aife.anu.edu.au/ 

O-GLYCBASE ( 0 联 糖 基 化 蛋白 质 的 修订 数据 库 ) 
http:/Avww.cbs.dtu.dk/ OGLYCBASE/cbsoglycbase.html 

基因 组 序列 数据 序 (GSDB ) (已 注释 的 DNA 序 列 的 关系 数据 序 ) 
http://www.ncgr.org 

EBI 蛋 白质 拓扑 图 
http://www3.ebi.ac.uk/tops/Serverlntermed.html 

酶 及 新 陈 代谢 途径 数据 库 (EMP) 
http://www.empproject.com/ 

MAGPIE ( 多 用 途 的 基因 组 计划 自动 研究 环境 ) 
http://www.mcs.anl.gov/home/gaasterl/magpie.html 

大 肠 杆 菌 数据 库 收 集 (ECDC ) ( 大 肠 杆菌 K12 的 DNA 序 列 汇编 ) 
http://susi.bio.uni-giessen.de/ecde.htmi 

嗜 血 流 感 杆菌 数据 库 (HIDC ) (遗传 图 谱 ， 序 列 片断 搜索 目录 ) 
http://susi.bio.uni-giessen.de/hidc.html 

EcoCye ( 大 肠 杆菌 基因 及 其 新 陈 代谢 的 百科 全 书 ) 
http://www.ai.sri.com/ecocyc/ecocyc.html 

Eddy 实 验 室 的 snoRNA 数 据 库 
http://rna.wustl.edu/snoRNAdb/ 

GenProtEc (大肠 杆菌 基因 及 蛋白 质 ) 
hitp://www.inbl.edu/html/ecoli.html 

NRSub (pi ETAETA BE PE ) 
http://pbil.univ-lyon 1 .fr/nrsub/nrsub.html 
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YPD (酿酒 酵母 蛋白 质 ) 
http://www.proteome.com/Y PDhome. html 

酵母 基因 组 数据 库 
http://genome-www.stanford.edu/Saccharomyces/ 

LISTA, LISTA-HOPALISTA-HON ( 醉 母 同 源 数据 库 汇编 ) 
http://www.ch.embnet.org/ 

FLyBase (RHEE FE ) 
http://flybase.bio.indiana.edu/ 

MPDB (分 子 探 针 数据 库 ) 
http://www.biotech.ist.unige.it/interlab/mpdb.html 

tRNA 序列 及 tRNA 基因 序列 汇编 
http://www.uni-bayreuth.de/departments/biochemie/trna/index.html 

贝勒 医学 院 (Baylor College of Medicine ) 的 小 RNA 数 据 库 
http://Amber.bem.tmc.edu/smallRNA/smallma.html 

SRPDB ( 信号 识别 粒子 数据 库 ) 
http://psyche.uthet.edu/dbs/SRPDB/SRPDB html 

RDP ( 核糖 体 数据 库 计 划 ) 
http://rdpwww.life.uiuc.edu/ 

小 核糖 体 亚 蛋白 RNA 结 构 
http://rma.uia.ac.be/ssu/index.html] 

大 核糖 体 亚 蛋白 RNA 结 构 
http://rrna.uia.ac.be/lsu/index.html 

RNA 修 饰 数据 库 
http://medlib.med.utah.edu/RNAmods/ 

HAMSTeRS ( A 型 血 友 病 突变 数据 库 ) 及 凝血 因子 VII 突 变数 据 库 
http://europium.csc,mre.ac.uk/usr/W W W/WebPages/main.dir/main.htm 

B 型 血 友 病 ( 突变 位 点 、 短 搬 人 及 删除 序列 ) 
ftp://ftp.ebi.ac.uk/pub/ databases/haemb/ 

人 类 p53 基因 ，hprt 及 lacZ 基 因 及 其 突变 
http://sunsite.unc.edu/dnam/mainpage.html 

PAH 突 变 分 析 《 导致 人 类 某 丙 酮 尿 症 的 葵 丙 氨 酸 强化 酶 特异 位 点 ) 
http://www.megill.ca/pahdb 
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ESTHER ( 胆 碱 脂 酶 基因 服务 器 ) 
http://www-ensam. inra.fr/cgi-bin/ace/index 
IMGT ( 免疫 遗传 学 数据 库 ) 
http://www.ebi.ac.uk/imgt/ 
人 类 肿瘤 及 细胞 系 的 p53 基 因 突 变 
ftp: //ftp.ebi.ac.uk/pub/databases/p53/ 
雄 件 激素 受 体 基 内 突变 数据 库 
ftp://www.ebi.ac.uk/pub/databases/androgen/ 
肾上腺 皮质 激素 受 体 资源 
http://nrr.georgetown.edu/GRR/GRR.html 
甲状 腺 激素 受 体 资 源 
http://xanadu.mgh.harvard.edu//receptor/trrfront.html 
16SMDB 及 23SMDB (16S 和 23S 核 糖 体 RNA 突 变数 据 库 ) 
http://www. fandm.edu/Departments/Biology/Databases/RNA.html 
MITOMAP ( 人 类 线粒体 基因 组 数据 库 ) 
http://www.gen.emory.edu/mitomap.html 
SWISS-2DPAGE ( 二 维 凝 胶 电 泳 数据 库 ) 
hitp://expasy.hcuge.ch/ch2d/ch2d-top.htm! 
PRINTS | 蛋白 质 印 迹 ( protein fingerprint ) 数据 库 ] 
http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS. htm] 
KabatMan ( 抗体 结构 及 序列 信息 数据 库 ) 
http://www. bioinf.org.uk/abs/ 
ALIGN (蛋白质 序列 比 对 一 览 ) 
http://www. biochem.ucl.ac.uk/bsm/dbbrowser/ALIGN/ALIGN. html 
CATH ( 蛋白 质 结构 分 类 系统 ) 
http://www.biochem.ucl.ac.uk/bsm/cath/ 
ProDom ( 和 蛋白质 域 数据 库 ) 
http://protein.toulouse.inra.fr/ 
Blocks 数 据 库 (蛋白 质 分 类 系统 ) 
http://blocks.fherc.org/ 
HSSP ( 按 同 源 性 导出 的 蛋白 质 二 级 结构 数据 库 
http://www.sander.emb!-heidelberg.de/hssp/ 
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FSSP ( 基于 结构 比 对 的 蛋白 质 折 秋分 类 ) 
hitp://www?2.ebi.ac.uk/dali/fssp/fssp.htm] 

SBASER A BUR (已 注释 的 蛋白 质 序列 片断 ) 
http://www.icgeb.trieste.it/~sbasesrv/ 

TransTerm ( 翻译 控制 信号 数据 库 ) 
http://uther.otago.ac.nz/Transterm.html 

GRBase (参与 基因 调控 的 蛋白 质 的 相关 信息 数据 库 ) 
http://www.access.digex.net/~regulate/trevgrb.html 

ENZYME ( 酶 的 命名 法 ) 
http://www.expasy.ch/enzyme/ 

REBASE ( 限制 性 内 切 酶 和 甲 基 化 酶 数据 库 } 
http://www.neb.com/rebase/ 

RNaseP 数 据 库 
http://jwbrown.mbio.ncsu.edu/RNaseP/home. html 

REGULONDB (大 肠 杆 菌 转 录 调 控 数 据 库 ) 
http://www.cifn.unam.mx/Computational_Biology/regulondb/ 

TRANSFAC ( 转录 因子 及 其 DNA 结 合 位 点 数据 库 ) 
http://transfac.gbf.de/ 

MHCPEP ( MHC 结 合 肽 数据库 ) 
http://wehih. wehi.edu.au/mhcpep/ 

小 鼠 基因 组 数据 库 
http://www.informatics.jax.org/mgd.html 

7) 6: BR BERGE PE (Mouse Knockout Database ) 
http://BioMedNet.com/cgi-bin/mko/mkobrwse.p] 

ATCC (SAAR PD ) 
http://Awww.atcc.org/ 

高 度 保守 的 核 蛋 白 序列 的 组 蛋白 序列 数据 库 
http://www.ncbi.nlm.nih.gov/Baxevani/HISTONES 

3Dee (蛋白 质 结构 域 定义 数据 库 ) 
http://barton.ebi.ac.uk/servers/3Dee.html 

InterPro《〈 蛋 白质 域 以 及 功能 位 点 的 完整 资源 ) 


http://www.ebi.ac.uk/interpro/ 
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NRL_3D ( 由 PDB 数 据 库 、 图 片 以 及 搜索 得 到 的 序列 结构 数据 库 ) 
http://www.gdb.org/Dan/proteins/nr13d.htmł 

VBASE 人 类 可 变 免疫 基因 序列 
http://www.mrc-cpe.cam.ac.uk/imt-doc/public/INTRO.html 

GPCRD《〈G 蛋 白 结合 受 体 数据 ) 
http://www.gper.org/7tm/ 

人 类 细胞 遗传 学 【染色 体 及 染色 体 组 学 ) 
hitp://www.selu.com/bio/cyto/human/index.html 

蛋白 激酶 资源 
http://www.sdsc.edu/projects/Kinases/pkr/pk..info.html#Format 

碳水 化 合 物 数据 库 
http://www.boc.chem.ruu.nl/sugabase/databases.html 

包 和 柔 氏 螺旋 体 菌 分 子 生物 学 主页 
http://www.pasteur.fr/Bio/borrelia/ Welcome.html 

人 类 乳头 瘤 病毒 数据 库 
http:AHPV-web.lani.gov/ 

用 于 人 类 健康 与 疾病 的 蛋白 质 组 分 析 的 二 维 电 泳 数据 库 
http://biobase.dk/cgi-bin/celis 

DBA 哺 到 动物 基因 组 大 小 数据 库 
http://www.unipv.it/~webbio/dbagsh.htm 

DOGS ( 基因组 规模 数据 库 ) 
http://www.cbs.dtu.dk/databases/DOGS/index.html 

美国 专利 引用 数据 库 
http://cos.gdb.org/repos/pat/ 









































序列 相似 性 搜索 


EBI 序 列 相似 性 研究 网 页 
http://www.ebi.ac.uk/searches/searches.html 

NCBI; BLAST 注释 
http://www.ncbi.nlm.nih.gov/BLAST/ 

EMBL 的 BLITZ ULTRA 快 速 搜索 
http://www.ebi.ac.uk/searches/blitz_input.html 
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EMBL WWW 服 务 器 
http://www.embl-heidelberg.de/Services/index.html#5 

蛋白 质 或 核 音 酸 的 模式 浏览 
http://www.mcs.anl.gov/compbio/PatScan/HTML/patscan html 

MEME ( 蛋白质 超 二 级 结构 模 体 发 现 与 研究 ) 
http://meme.sdsc.edu/meme/website/ 

CoreSearch (DNA 序 列 保守 元 件 的 识别 ) 
hitp://www.gsf.de/biodv/coresearch. html 

PRINTS/PROSITE 浏 览 〔 搜索 motif 数 据 库 ) 
http://www.biochem.ucl.ac.uk/cgi-bin/attwood/SearchPrintsForm.pt 

苏黎世 ETH 服 务 器 的 DARWIN 系 统 
http://cbrg.inf.ethz.ch/ 

利用 动态 规划 找 出 序列 相似 性 的 PimaI 

http://omerc-www.bu.edu/protein-seq/pimall-new. html 

利用 与 模式 库 进行 哈 希 码 ( hashcode ) 比较 找到 序列 相似 性 的 DashPat 

htep://bmerc-www.bu.edu/protein-seq/dashPat-new.htm] 

PROPSEARCH ( 基于 氨基 酸 组 成 的 搜索 ，EMBL ) 

http://www.embl-heidelberg.de/aaa.html 

序列 搜索 协议 〈 集成 模式 搜索 ) 
http://www. biochem.ucl.ac.uk/bsm/dbbrowser/protocol.html 

ProtoMap (SWISS-PROT 中 所 有 蛋白 质 的 自动 层次 分 类 ) 
http://www.protomap. cs.huji.ac.il/ 

GenQuest ( 利用 Fasta、Blast、Smith-Waterman 方 法 在 任意 数据 库 中 搜索 ) 
http://www.gdb.org/Dan/gq/gq.form.html 

SSearch ( 对 特定 数据 库 的 搜索 ) 
http://watson.genes.nig.ac.jp/homology/ssearch-e_help.htm] 

Peer Bork 搜 索 列表 (motif/ 模 式 /序列 谱 搜索 ) 
http://www.embl-heidelberg.de/~bork/pattern.htm} 

PROSITE 数 据 库 搜索 ( 搜索 序列 的 功能 位 点 ) 
http://www.ebi.ac.uk/searches/prosite.html 

PROWL ( Skirball 研 究 中心 的 蛋白 质 信息 检索 ) 
http://mephar04.med.nyu.edu/index.html 
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CEPH 基 因 型 数据 库 
http://www.cephb.fr/cephdb/ 











13.6 比 对 


13.6.1 ”序列 和 结构 的 两 两 比 对 


和 蛋白质 两 两 比 对 ( SIM ) 
http://expasy.hcuge.ch/sprot/sim-prot.html 

LALNVIEW 比 对 可 视 化 观察 程序 
ftp://expasy.hcuge.ch/pub/lalnview 

BCM 搂 索 装置 (PURGE HLL ) 
http://searchlauncher.bem.tme.edu/seq-search/alignment.html 

DALI 蛋 白质 三 维 结构 比较 
http://www2.ebi.ac.uk/dali/ 

DIALIGN ( 无 间隙 罚 分 的 比 对 程序 ) 

http://www.gsf.de/biodv/dialign.html 


13.6.2 ”多 重 序列 比 对 及 系统 进化 树 


ClustalW ( BCM 的 多 重 序列 比 对 ) 
http://searchlauncher.bem,tmce.edu/multi-align/maulti-align.html 

PHYLIP ( 推测 系统 进化 树 的 程序 ) 
http://evolution. genetics. washington.edu/phylip.html 

其 他 系统 进化 树 程序 ，PHYLIP 文 档 的 汇编 

http://expasy.heuge.ch/info/phylogen.sof 




















http://phylogeny.arizona.edu/tree/phylogeny.html 
向 古 植物 学 家 提供 的 链接 
http://www.uni-wuerzburg.de/mineralogie/palbot1.html 
系统 进化 树 分 析 程 序 ( 牛 命 树 列表 ) 
http://phylogeny.arizona.edu/tree/programs/programs.html 


遗传 分 类 学 


牛 命 树 ( tree of life) 主页 (系统 进化 树 及 生物 多 样 性 的 相关 信息 ) 


http://www.kheper.auz.com/gaia/biosphere/systematics/cladistics.htm 
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遗传 分 类 学 软件 (Willi Hennig 协 会 提供 的 列表 ) 
http://www.cladistics.org/education.htmi 

用 于 多 重 序列 比 对 的 BCM 搜 索 装 置 
http://searchlauncher.bem.tme.edu/multi-align/multi-align.html 

AMAS (分 析 多 重 序列 比 对 中 的 序列 ) 
http://barton.ebi.ac.uk/servers/amas_server.html 


维也纳 RNA 一 级 结构 软件 包 
http://www,tbi,univie.ac.at/~ivo/RNA/ 

WebLogo ( 序列 标识 ) 
http://www.bio.cam.ac.uk/cgi-bin/seqlogo/logo.cgi 

使 用 相对 炳 的 蛋白 质 序列 标识 
http://www.cbs.dtu.dk/gorodkin/appl/plogo.html 

RNA 结 构 序列 标识 
http://www.cbs.dtu.dk/gorodkin/appl/slogo.htm1 

RNA Hf B 
http:#/www.gorodkin/appl/MatrixPlot/mutRNA/ 








有 代表 性 的 预测 服务 器 


13.7.1 ”从 序列 预测 蛋白 质 结构 





PHD 蛋 白质 预测 服务 器 ， 用 于 二 级 结构 、 水 溶性 以 及 里 膜 片断 的 预测 
http://www.embl-heidelberg.de/predictprotein/predictprotein.html 

PhdThreader ( 利用 逆 折 释 方 法 预测 、 识 别 折 状 类 ) 
http://www.embl-heidelberg.de/predictprotein/phd_help.html 

PSIpred ( 蛋白质 结构 预测 服务 器 ) 
http://insulin.brunel.ac.uk/psipred/ 

THREADER (RUE - 琼斯 ) 
http://www. biochem.ucl.ac.uk/~jones/threader.html 

TMHMM ( BRS bE AEA HEM ) 
http://www.cbs.dtu.dk/services/TMHMM/ 

蛋白 质 结构 分 析 ，BMERC 


http://omerc-www.bu.edu/protein-seq/protein-struct.html 
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SE RGR ADT BS BY TBE BE He 
http://genome.dkfz-heidelberg.de/nnga/def-query.html 

NNSSP ( Fl FASE AB SRA BLA A BY) 
http://genomic.sanger.ac.uk/pss/pss.html 

Swiss-Model (基于 知识 的 蛋白 质 自动 同 源 建 模 服务 器 ) 
http://www.expasy.ch/swissmod/S WISS-MODEL.html 

SSPRED【〔 用 多 重 序列 比 对 进行 二 级 结构 预测 ) 
http://www.mrc-cpe.cam.ac.uk/jong/predict/sspred.htm 

SSCP ( 满足 氨基 酸 组 成 约束 的 二 级 结构 预测 ) 
http://www.mre-cpe.cam.ac.uk/jong/predict/sscp.htm 

法 国 IBCP 的 SOPM ( 自 寻 优化 预测 方法 、 二 级 结构 ) 
http://pbil.ibep. fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html 

NNPREDICT ( 利用 神经 网 络 进行 残 基 的 预测 ) 
http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html 

SSpro ( 三 类 别 的 二 级 结构 ) 
http://promoter.ics.uci.edu/BRNN-PRED/ 

SSpro8( 八 类 别 的 二 级 结构 ) 
http://promoter.ics.uci.edu/BRNN-PRED/ 

ACCpro (水 溶性 ) 
http://promoter.ics.uci.edu/BRNN-PRED/ 

CONpro ( 相 邻 残 基 的 数目 ) 
http://promoter.ics.uci.edu/BRNN-PRED/ 

TMAP (蛋白质 跨 膜 片断 的 预测 服务 ) 
http://www.emb]-heidelberg.de/tmap/tmap_info.html 

TMpred( 跨 腊 区 域 和 方向 的 预测 ) 
http://www.ch.embnet.org/software/TMPRED..form.html 

MultPredict ( 多 重 序列 比 对 的 序列 的 二 级 结构 ) 
http://kestrel.ludwig.ucl.ac.uk/zpred.html 

NIH 分 子 建 模 主页 ( 带 有 链接 的 建 模 主页 ) 
http://cmm.info.nih.gov/modeling/ 

BCM 搜 索 装 置 ( 蛋白 质 二 级 结构 预测 ) 


http://searchlauncher, bem.tmc.edu/seq-search/struc-predict.htm] 
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COILS (蛋白质 的 卷曲 螺旋 区 域 预测 ) 
http://www.ch.embnet.org/software/coils/COILS—doc.html 

Coiled Coils (卷曲 螺旋 ) 
http://w ww.york.ac.uk/depts/biol/units/coils/coilcoil.html 

Paircoil ( 氨基 酸 序 列 中 的 卷曲 螺旋 定位 ) 
http://theory.Ics.mit.edu/bab/webcoil.html 

PREDATOR ( 由 单 序列 预测 蛋白 质 二 级 结构 ) 
http://www-embl-heidelberg.de/argos/predator/predator_info.html 

DAS (Dense Alignment Surface， 密 度 比 对 表面 和 蛋白质 跨 膜 区 域 的 预测 ) 
http://www. biokemi.su.se/~server/DAS/ 

UCLA-DOE 结 构 预测 服务 器 的 折 释 识别 
hitp://www.doe-mbi.ucia,edu/people/frsvr/frsvr.html 

分 子 建 模 服务 器 及 数据 库 
http://bìonmr5.bham.ac.uk/modelling/model.html 

EVA ( 和 蛋白质 结构 预测 和 服务 器 的 自动 评估 ) 


http://cubic.bioc.columbia.edu/eva/ 
13.7.2 ”基因 发 现 与 内 含 子 剪接 位 点 识别 


NetGene ( 人 类 基因 内 含 子 剪接 位 点 预测 ) 
http://www.cbs.dtu.dk/services/NetGene2/ 
NetPlantGene ( 阿布 属 拟 南 草 的 内 含 子 剪 接 位 点 预测 ) 
http://www.cbs.dtu.dk/services/NetPGene 
GeneQuiz (基因 组 自动 分 析 ) 
hittp://www.sander.embl-heidelberg.de/genequiz/ 
GRAIL 界 面 ( 蛋白 质 编码 区 域 与 功能 位 点 ) 
http://avalon.epm.ornl.gov/Grail-bin/EmptyGrailForm. 
GENEMARK (蛋白 质 编码 区 域 预测 的 WWW 系 统 ) 
http://genemark. biology.gatech.edu/GeneMark 
GENSCAN 网 络 服务 器 ,基因 组 DNA 的 完整 基因 结构 
http://gnomic.stanford.edu/~chris/GENSCANW. html 
FGENEH Genefinder ( 人 类 DNA 序 列 的 基因 结构 预测 ) 
http://mber.bem.tme.edu/Guide/Genefinder/fgeneh html 
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GRAIL 和 GENQUEST ( 通过 E-mail 进 行 序列 分 析 、 基 因 拼 接 和 序列 比较 ) 
http://avalon.epm.ornl.gov/manuals/grail-genquest.9407.html 
CpG 岛 发 现 程序 
http://www.ebi.ac.uk/cpg/ 
真 核 细胞 Pol 工 启动 子 预 测 
http://biosci.umn.edu/software/proscan.html 
启动 子 预 测 输入 
http://www-hgc.lbl.goviprojects/promoter.html 
网 络 信号 扫描 服务 器 〈 浏览 DNA 序 列 以 找到 真 核 细 胞 的 转录 元 件 ) 
http://bimas.dert.nih.gov/molbio/signal/ 
基因 发 现 网 页 
http://konops.imbb. forth. gr/~topalis/mirror/gdp.htm] 
基因 组 测序 计划 列表 


http://www.mes.anl.gov/home/gaasterl/genomes.html 
13.7.3 ”DNA 微 阵列 数据 和 方法 


CyberT (DNA 微 阵列 数据 分 析 服 务 器 ) 
http://128.200.5.223/CyberT/ 

布朗 实验 室 ( Brown Lab ) 的 微 阵列 指南 
http://emgm.stanford.edu/pbrown 

斯 坦 福 微 阵 列 数据 库 
http://genome-www4.stanford.edu/MicroArray/SMD/ 

斯 坦 福 微 阵列 论坛 
http://cmgm.stanford.edu/cgi-bin/cgiwrap/taebshin/dcforum/dcboard.cgi 

EBI 的 Brazma 微 阵列 网 页 
http://industry.ebi.ac.uk/~brazma/Data-mining/microarray.html 

基因 表达 和 DNA 微 阵列 技术 的 网 络 资源 
http://industry.ebi.ac.uk/~alan/MicroArray/ 

Gene-X ( 阵列 数据 管理 和 分 析 系统 ) 
http://www.negr.org/research/genex/ 

UCI 功 能 基因 组 阵列 工具 和 软件 


http://www. genomics.uci.edu/ 
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Matern 的 DNA 微 阵列 网 页 
http://barinth.tripod.com/chips.html 
微 阵列 信息 、 工 具 和 协议 的 公共 资源 
http://www.microarrays.org/ 
Weisshaar 的 DNA 微 阵列 链接 列表 
http://www.mpiz-koeln.mpg.de/~weisshaa/Adis/DNA-array-links.html 
用 DNA 微 阵列 技术 识别 基因 控制 精子 形成 的 过 程 


http://www.mcb.arizona.edu/wardlab/microarray.html 














13.7.4 ”其 他 预测 服务 器 





NetStart ( 消 稚 动物 和 阿布 属 拟 南 章 DNA 的 翻译 起 始 ) 
http:f/www.chs.dtu.dk/services/NetStart/ 

NetOGlyc〔 哺乳 动物 蛋白 质 O 联 糖 基 化 位 点 ) 
http://www. cbs.dtu.dk/services/NetOGlyc/ 

YinOYang ( 真 核 生 物 蛋 白质 序列 的 0-B-GlIcNAc 位 点 ) 
http://www.cbs.dtu.dk/services/YinO Yang/ 

SignalP 
《 革 兰 氏 阳性 菌 、 革 兰 氏 阴 性 菌 和 真 核 生物 蛋白 质 的 信号 肽 及 剪 切 位 点 ) 
http://www.cbs.dtu.dk/services/SignalP/ 

NetChop ( 人 类 和 蛋白酶 体 的 剪 切 位 点 ) 
http://www.cbs.dtu.dk/services/NetChop/ 

NetPhos ( 真 核 细胞 和 蛋白质 的 丝氨酸 、 苏 氨 酸 及 栈 氮 酸 磷酸 化 作用 位 点 ) 
http://www.cbs.dtu.dk/services/NetPhos/ 

TargetP( 下 细胞 位 置 预 测 》 
http://www.cbs.dtu.dk/services/TargetP/ 

ChloroP ( 叶绿体 分 选 信号 预测 》 
http://www.cbs.dtu.dk/services/SignalP/ 

PSORT (由 序列 预测 蛋白 质 分 选 信号 及 序列 定位 ) 
http://psort.nibb.ac.jp/ 

PEDANT (蛋白质 提取 、 描 述 及 分 析 工 具 ) 
http://pedant.mips.biochem.mpg.de/ 

将 提交 的 序列 与 COG 数 据 库 里 的 序列 进行 比较 
hittp://www.ncbi.nlm.nih.gov/COG/cognitor.htmt 
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从 序列 预测 HLA 结 合 肽 


http:/Awww-bimas.dert.nih. gov/molbio/hla_bind/index.html 


13.8 “分子 生物 学 软件 链接 


牛 物 信息 学 可 视 化 工具 
http://industry.ebi.ac.uk/alan/VisSupp/ 

EBI 分 子 生 物 学 软件 档案 
http://www.ebi.ac.uk/software/software.html 

BioCatalog 
http://www.ebi.ac.uk/biocat/e-mail_Server_ANALYSIS.html 

生物 学 软件 和 数据 库 档 案 
http://www.gdb.org/Dan/softsearch/biol-links.html 

EWAH ( Barton group ) 的 软件 
(ALSCRIPT, AMPS, AMAS, STAMP, ASSP, JNET#ISCANPS ) 
http://barton.ebi.ac.uk/new/software.html 

科恩 研究 组 (Cohen group) 的 软件 
(旋转 异 构 体 库 、BLoop、QPack、FOLD 和 Mateh ) 
http://www.cmpharm.uesf.edu/cohen/pub/ 

RRB Hb (Wadsworth Center ) 的 贝 叶 斯 生物 信息 学 
http://www, wadsworth.org/res&res/bioinfo/ 

Rasmol 软 件 和 脚本 文件 
http://scop.mre-Imb.cam.ac.uk/std/rs/ 

MolScript 
http://indL.mre-Imb.cam.ac.uk/external-file-copies/molscript.html 

WHAT IF 
http://www.hemp.mre.ac.uk/Registered/Option/whatif.html 

Biosym ( Discover } 
http:/And1.mre-Imb.cam.ac.uk/external-file-copies/biosym/discover/html/ 

Disco_Home.html 

UC Santa Cruz 的 序列 保守 性 HMM 的 SAM 软 件 

http://www.cse.ucsc.edu/research/compbio/sam.html 
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HMMER ( 隐 马 氏 模 型 软件 的 源 代 但 ) 
http://hmmer. wustl,edu/ 
ClustalW 
http://www.ebi.ac.uk/clustalw/ 
DSSP 程 序 
hetp://www.sander.embl-heidelberg.de/dssp/ 
用 于 病毒 重组 的 Bootscanning 
http://www.bio.net//hypermail/RECOMBINATION/recom. 199607/0004.htm1 
用 于 大 家 系 连 锁 分 析 的 块 状 吉 布 斯 采样 
http://www.cs.auc.dk/~claus/block.html 
MSED ( 用 于 Windows 的 化 白质 多 序列 编辑 器 ) 
ftp://ftp.ebi.ac.uk/pub/software/dos/promsed/ 
用 于 Sun/Solaris 的 DBWatcher 
http://www-igbmc.u-strasbg. fr/Biolnfo/LocalDoc/DB Watcher/ 
ProFit ( EURER “Fe fre ) 
http://www. bioinf.org.uk/software/ 
印第安 纳 大 学 IUBIO 软 件 和 数据 
http://iubio.bio.indiana.edu/ 
NIH 分 子 生物 学 软件 列表 
http://bimas.dert.nih.gov/sw.html 
用 于 蛋白质 / 肽 分 析 的 ProAnaiyst 软 件 
ftp://ftp.ebi.ac.uk/pub/software/dos/proanalyst/ 
使 用 距离 几何 的 DRAGON 蛋 白质 建 模 工具 
http://www.nims.mrc.ac.uk/~mathbio/a-aszodi/dragon.html 
DEAR 
http://www. best.com/~connolly/ 
生物 技术 软件 和 因特网 期 刊 
http://www.orst.edu/~ahernk/bsj.htm! 
MCell ( 细胞 微 牛 理学 的 蒙特 卡 罗 仿真 ) 
http://www.mcell.cnl.salk.edu/ 
HHMpro (使 用 图 形 界面 进行 序列 分 析 的 HMM 念 真 ) 


http://www.netid.com/ html/hmmpro.html 


已 
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13.9 ”网 上 的 博士 课程 


生物 计算 课程 资源 列表 : 课程 大 纲 
http://www. techfak.uni-bielefeld.de/bed/Curric/syllabi.htm] 
生物 序列 分 析 和 蛋白 质 建 模 的 Ph.D. 课 程 
hitp://www.cbs.dtu.dk/phdcourse/programme.html 
分 子 科 学 虚拟 学 校 
http://www.ccc.nottingham.ac.uk/vsms/sbdd/ 
EMBnet 生 物 计算 指南 
http://biobase.dk/Embnetut/Universl/embnettu.html 
EARE RARE 
http://www.cryst.bbk.ac.uk/PPS/index.htmt 
自然 科学 GNA 虚 拟 学 校 
http://www.techfak.uni-bielefeld.de/bcd/V sns/index.html 
分 子 生物 学 算法 
http://www.cs.washington.edu/education/courses/S90bi/ 
ISCB 教 育 工作 组 
http://www.sdsc.edu/pb/iscb/iscb-edu.htm] 


13.10 “生物 信息 学 协会 


国际 计算 生物 学 协会 (1SCB ) 
http://www.iscb.org/ 

北欧 国家 生物 信息 学 协会 
http://www.socbin.org/ 

日 本 生物 信息 学 协会 
http://www.jsbi.org/ 


13.11 HMM/NN 仿 真 软件 


本 书 中 所 描述 的 大 基 研 究 实例 使 用 Net-ID 有 限 公司 和 哥本哈根 的 丹麦 生物 序 
列 分 析 中 心 的 研究 人 员 合作 开发 的 用 于 生物 序列 分 析 的 机 器 学 习 软 件 环境 加 以 实 








现 。 
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这 一 软件 环境 的 基础 是 Net-Libs， 这 是 由 NetrID 开 发 的 用 于 图 形 建 模 、 机 器 
学 习 和 推理 的 面向 对 象 的 C++ 类 库 。 这 个 库 支 持 任何 图 模型 (NN、HMM、 贝 叶 
斯 网 络 等 ) 的 分 层 及 递归 实现 ， 以 及 在 推断 /学 习 过 程 和 动态 规划 中 传递 信息 、 错 
误 和 常用 资源 的 局 部 信息 传递 算法 。 

除 此 以 外 ，Net-Libs 还 为 将 HMM 仿 真 和 NN 仿真 用 于 生物 序列 分 析 提 供 了 基 
础 。 它 运用 Java 语 言 实现 了 简便 易 用 的 图 形 界面 。 该 软件 可 在 Unix 和 NT 平台 下 运 
行 。 

另外 ， 该 软件 环境 还 可 方便 地 进行 输入 /输出 序列 、 数 据 库 、 文 件 以 及 训练 模 
型 库 的 操作 。 其 中 ， 训 练 模型 库 包 括 了 大 景 蛋白 质 家 族 和 DNA 元 件 (启动 子 、 前 
接 位 点 和 外 显 子 等 ) 的 HMM 模 型 ， 以 及 在 蛋白 质 和 DNA 序 列 中 检测 特殊 结构 或 
功能 信号 的 大 量 NN 模 型 。 

若 要 得 到 更 多 信息 ， 请 联系 : admin@netid.com. 
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A.1 决策 理论 和 损失 月 数 


在 任何 决策 问题 中 ，'35331] 人 们 必须 定义 一 个 损失 函数 (loss function ) 
[或 等 价 的 一 个 回报 尔 数 (reward function) ] 来 度量 一 定 环境 下 采取 一 定 行动 
所 产生 的 效果 。 决 策 理论 的 基本 原理 是 用 一 小 组 合适 的 公理 描述 理性 行为 ， 在 
这 组 公理 下 ， 最 优 策略 是 能 够 最 小 化 损失 的 期 望 值 的 一 种 策略 。 其 中 ， 期 望 根据 
现 有 知识 通过 对 不 确定 环境 的 贝 叶 斯 概率 分 析 加 以 定义 。 注 意 ， 一 些 纯粹 的 科学 
数据 分 析 工 作 一 一 例如 数据 压缩 、 重 构 或 聚 类 一 一 本 质 上 都 是 决策 理论 问题 ， 
此 需要 定义 -- 个 损失 函数 。 甚 至 连 预测 也 可 以 被 归结 为 这 一 类 问题 ， 这 也 就 是 为 
什么 在 回归 中 ， 当 损失 函数 是 二 次 通 数 时 ，E( ylx ) 是 在 给 定 x 的 条 件 下 y 的 最 优 
估计 (AFX) 

如 果 我 们 的 月 标 是 找 出 “最 优 ”模型 (这 种 情况 在 本 书 里 经 常 出 现 )， 期 户 
的 损 拓 函数 就 是 负 对 数 似 然 (或 负 对 数 先 验 ) 函数 。 但 是 一 般 来 讲 ， 这 两 个 函数 
是 有 区 别 的 。 例 如 从 原理 上 说 ， 高 斯 数据 也 有 二 次 负 对 数 似 然 度 ， 但 人 们 却 使 用 
一 个 二 次 损失 函数 。 

可 以 根据 最 小 化 特性 定义 两 个 损失 函数 户 和 户 的 等 价 性 。 等 价 的 条 件 是 ,在 
在 -个 阶 数 不 变 的 变换 8 [Hus<v, Wel) <g(v) ] 使 得 fef 。 在 这 种 条 件 
下 , 卢 和 户 有 相同 的 极 小 点 。 这 当然 并 不 意味 着 用 于 AA 万 的 最 小 化 〔 即 学 习 )》 
算法 会 表现 出 相同 的 方式 ， 也 不 意味 着 彤 和 卢 在 它们 的 极 小 值 点 附近 有 相同 的 昌 5 
率 。 正 如 在 第 5 章 所 到 的 ， 当 立户 =1 时 ， 二 次 函数 廊 (y) = DF ry) 72 和 交叉 
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WER Cy) =- pp, logy 提 供 了 一 个 很 好 的 例子 。 如 果 WR Dol, WAE 
两 个 函数 都 是 y 的 是 函数 ， 且 在 yj=p; 处 有 惟一 的 全 局 极 小 值 。 事 实 上 ， 把 户 在 p 处 
泰勒 展开 ， 有 


-Soe pite) Ho$ i (AL) 


Keyapte, Beso. Alt, “p-VKEWUO PMN, BEARER 
AEH (p) +Kfio SRE, BAB, SU RITE AO, Af HE 
相同 的 最 优点 附近 重合 旦 有 相同 的 曲率 。 在 这 个 附录 的 余下 部 分 ， 将 集中 讨论 最 
常用 的 二 次 损失 函数 〈 或 高 斯 似 然 函 数 )。 但 是 利用 上 面 的 讨论 ， 很 多 结果 可 以 
推广 到 其 他 损失 函数 。 





A.2 二 次 损失 函数 


A.2.1 BASE 

我 们 先 考虑 一 申 数 y…yg 和 二 次 型 六 (7) = DE (yy) ”YK， 即 均 方 损失 。 此 
时 j 在 平均 值 y=E(y) = 允 *yyK 处 有 惟一 极 小 值 。 利 用 Jensen 不 等 式 (附录 B ) 可 
以 很 容易 地 看 出 这 一 点 ， 写 得 更 直接 一 些 有 








K 


foe LY (-y' +y -xF 


K 1 
=(y-y" Ped y "9 2D 0- yy’ ~») 
=f ELE -x >t) (A2) 

















此 了 可 以 被 分 解 为 偏差 (y—y') 和 方差 了 (> 一 站 的 和 。 偏 差 度量 的 是 从 
?到 最 优 均值 的 距离 ， 方 差 度量 的 是 y 在 均值 附近 的 离散 度 。 这 个 将 二 次 损失 函数 
转化 为 两 个 二 次 项 之 和 的 分 解 ( 毕 达 哥 拉 斯 定理 ) 很 重要 ， 在 该 分 解 中 所 有 的 交 
叉 项 都 被 消 掉 了 。 该 分 解 的 各 种 不 同 变形 下 面 将 会 反复 使 用 。 当 ”以 不 同 频率 或 
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强度 m 关 0 出 现 且 也 六 =1 时 ， 上 述 结论 总 是 成 立 。 这 里 ， 期 望 的 二 次 损失 在 加 





权 平 铅 y=E(y) = piy; 处 取 最 小 值 ， 因 为 存在 如 下 分 解 








K 


EG-»)|= Erdos} =(-»') +l" -x7 








现在 说 明 如 何 将 这 一 简单 的 分 解 用 于 回归 


些 略 微 不 同 的 期 望 算 子 ， 包 括 对 不 同 的 训练 集 或 不 同 


A22 ”回归 上 的 应 用 


(A3) 


问题 。 具 体 的 做 法 是 在 几 个 方向 上 用 一 


的 估计 器 求 平均 。 








考虑 这 样 一 个 回归 问题 ,x 和 y 由 分 布 P(% y ) 刻画 ， 而 我 们 试图 利用 数据 z 和 y 


来 估计 目标 函数 (x)。 与 第 5 章 一 样 ， 为 简化 起 见 ， 我 介 











假设 由 于 存在 噪声 ， 对 于 


一 个 x 可 能 存在 不 同 的 y 与 之 对 应 。 对 于 任意 x*， 期 望 误 差 或 损失 E[ (yf (x ))?ix ] 


的 最 小 值 点 是 条 件 期 望 y=E( ylx )， 这 里 所 有 的 期 望 值 着 
以 用 对 应 的 样本 来 近似 。 写 成 如 下 形式 后 可 将 平方 式 展开 : 


E(y—70))"b]= Ely Eb) 


很 容易 看 出 交叉 项 消失 了 ， 只 剩 下 偏差 和 方差 两 部 分 : 
Efo- £6)" ]=[EGix)- r] 


偏差 /方差 均衡 











+E(ylx)— f(x) 


a] 





ê + Hl» -Eis 


yt] 


是 对 分 布 P 求 取 的 ， 也 可 


(A4) 


(AS) 


考虑 同样 的 回归 体系 ， 但 是 使 用 不 同 的 训练 集 D。 对 每 一 个 训练 集 D， 学 习 算 
法 产生 一 个 不 同 的 估计 f( x, PD)。 这 样 一 个 估计 器 的 性 能 可 以 用 期 望 损失 
ELO- (xD) k D] 来 度量 ， 这 里 期 望 仍然 是 对 P 求 取 的 。 通 过 一 般 的 计算 可 得 


sl -f(x Dl, p] = 


[7 D)-E(yk)] + El(y - E(x). D] 














(A6) 


其 中 ,方差 项 不 依赖 于 训练 样本 D。 因 此 ， 对 任意 xz， 估计 器 (x, D) 的 有 效 性 
由 偏差 [f(x, D) -E(ylx) ] "来 度量 ， 也 就 是 说 ， 由 它 偏离 最 优 估计 E(ylx) 的 
程度 来 度量 。 现 在 来 看 这 种 误差 对 所 有 给 定 大 小 的 训练 集 D 的 平均 。 记 
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Enl(r(e 思 -ol 门 = 


Ep[(f(%,D) -Ep(f(%.D)+ Bol f(x.D))- Ebb )})] (A7) 
FASE, UP he Fe 
Ep[(f(«.D)- Ek) ]= 


[Eo(f% DD) -EOP +Eo[(f(x,D) -Eo(f(x,D))] (A8) 





偏差 -方差 分 解 对 应 着 机 器 学 习 里 的 一 种 不 确定 原理 ; 试图 减少 一 项 而 不 同时 增加 
另 一 项 ， 往 往 是 很 困难 的 。 这 也 是 在 数据 的 欠 拟 合 和 过 拟 合 之 间 的 基本 平衡 。 一 
个 具有 大 量 参数 的 学 习 机 较 灵 活 ， 可 以 覆盖 很 大 的 函数 空间 ， 达 到 很 小 的 偏差 。 
但 是 ， 这 种 学 习 机 对 数据 很 敏感 ， 因 此 与 数据 的 过 拟 合 关系 密切 ， 方 差 因此 将 趋 
于 很 大 。 一 个 简单 的 学 习 机 一 般 有 较 小 的 方差 ， 但 代价 是 有 较 大 的 欠 拟 合 偏差 。 
































A.4 估计 器 的 组 合 





正如 在 第 4 章 中 提 到 的 ， 用 一 个 与 估计 器 关联 的 参数 w 的 离散 ( 甚至 是 连续 ) 
分 布 p,. 宇 0( ,ps =1 ) 把 不 同 的 估计 器 f(x,w ) 组 合 起 来 ， 有 时 会 很 有 用 。 例 
如 (A.8 ) 中 不 同 的 估计 器 可 以 对 应 不 同 的 训练 集 。 通 过 对 w 求 期 望 ,，( A.8) 马上 
可 以 推广 成 














E, |(W) -EGI)]= 
[E(w)- EG +E, |(W- E, (Fw)))) (A9) 











此 加 权 平 均 估计 器 的 损失 ( 有 时 也 称 做 集合 平均 ) f(x) = E,, (f(x, rw) 总 是 比 平 
均 损 失 小 : 














E [rew -Eo [F706) -EG (A.10) 
事实 上 ， 我 们 可 以 利用 分 布 P 求 (A.9 ) 对 所 有 x 的 平均 ， 从 而 得 到 “推广 ”误差 : 














Ex[ 广 -By = 





A.6 
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EAE, (few) Ely) |-ExE, (rw) f°00) | (Alt) 


这 就 是 参考 文献 [ 340, 339) 中 用 的 关系 式 。 左 边 是 集合 的 期 望 损 失 。 右 边 的 第 
一 项 是 对 估计 器 的 期 望 损失 ， 第 二 项 被 称 做 模糊 度 (ambiguity )。 显然 ， 将 同样 
的 估计 器 结合 起 来 是 没有 用 的 。 因 此 这 个 模型 集 方法 的 一 个 有 用 的 必要 条 件 是 每 
个 估计 器 显著 不 同 ， 或 者 说 模糊 度 应 该 很 大 。 做 到 这 一 点 的 一 种 方法 是 对 每 个 佑 
计 器 用 不 同 的 训练 集 ( 见 参 考 文献 [340 ] ， 其 中 还 讨论 了 求 最 优 加 权 方 案 p, 算 
法 一 一 例如 使 用 二 次 规划 方法 )。 很 重要 的 一 点 是 估计 器 之 间 的 所 有 关联 都 包含 
在 模糊 度 这 一 项 里 了 。 模 糊 度 这 … 项 不 依赖 于 任何 目标 值 ， 因 此 可 以 用 没有 标明 
类 别 的 数据 估计 出 来 。 








误差 带 


考虑 在 带 有 一 个 参数 w 利 一 个 均匀 先 验 分 布 的 情况 下 建立 模型 。 令 f(w) = 
-log P ( Diw) 为 数据 的 负 对 数 似 然 函数 。 在 不 是 很 严格 的 可 导 性 条 件 下 ， 最 大 似 
Sethi W WES Cw") =0。 因 此 ， 在 w' 的 邻 域 里 ,我 们 可 以 将 f( w*) RARE 
DRE: 

















Fl) = fw) +5 F www? (A.12) 


Le pnp 
PDW) -=e Ce We (A.13) 











这 里 cae) 。 因 此 似 然 函数 和 后 验 分 布 P( wlM ) 在 局 部 上 类 似 于 一 个 
标准 差 为 f (w) 的 高 斯 分 布 ， 曲 率 为 f。 在 多 维 的 情况 下 ，2 阶 偏 导数 矩阵 
叫做 Hessian 阵 。 因 而 ， 对 数 似 然 函 数 的 Hessian 阵 有 一 个 几何 上 的 解释 ， 它 在 很 
多 问题 中 扮演 着 重要 的 角色 。 这 也 叫做 Fisher 信 息 量 矩阵 ( 见 参考 文献 [5, 16, 
373] )。 








充分 统计 量 


很 多 统计 问题 可 以 通过 充分 统计 量 来 简化 。 一 个 参数 w 的 充分 统计 量 是 数据 
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的 一 个 函数 ， 该 函数 包含 了 数据 中 所 有 与 w 有 关 的 信息 。 更 正式 地 ， 考 虑 一 个 随 
机 变量 X， 其 分 布 具 有 参数 w。 如 果 条 件 分 布 P(Xzxl8(X) =s) 以 概率 1 与 w 独 立 ， 
其中 8 为 X 的 一 个 函数 ， 则 3 是 w 的 一 个 充分 统计 车 。 因 此 P(X=x|S5(X) =s) 不 随 w 
改变 ,或 者 说 






































P(X = xS = 5, w) = P(X = x|5 = s) (A.14) 


如 果 我 们 用 任意 一 个 统计 晤 H=h(X) 代替 X， 以 上 等 式 仍然 成 立 。 等 价 地 ， 可 以 由 这 
个 等 式 得 到 P( wiX, S) =P( wlS )。 所 有 关于 mw 的 信息 都 由 8 包含 了 ， 任 何其 他 的 统计 量 
都 是 多 余 的 。 特 别 是 充分 统计 基 包 含 了 互信 息 7 ( 见 附录 B ); 7 (w,X) =F Cw, S(X)) 

作为 一 个 例子 ， 考 虑 从 随机 变量 ]f mo’) 中 抽取 出 一 个 样本 X= (XX), 
其 中 w= (u, o) WA Cm, s) 是 w 的 一 个 充分 统计 量 ， 其 中 m= 玉 ,X,/N, s?= 
Ei Xm) (WN-1 )。 换 名 话说 ,样本 中 所 有 有 关 j 的 信息 都 被 包含 在 样本 均 信 
加 中 ， 而 所 有 有 关 方 差 的 信息 都 被 包含 在 s* 中 。 


指数 族 


指数 族 ”1 是 一 个 最 重要 的 概率 分 布 族 。 它 的 应 用 范围 广泛 f 具 有 独特 的 计 
算 特性 : 它 的 各 种 不 同形 式 是 很 多 数据 分 析 快 速算 法 的 核心 。 很 多 统计 上 的 一 般 
定理 可 以 在 这 个 独特 的 参数 化 分 布 族 上 得 到 证 明 。 单 参数 指数 族 具有 如 下 形式 的 
密度 函数 : 






































了 (xlw ) =c(w) AG) 5 (A.15) 


大 多 数 常用 分 布 属于 指数 族 ， 包 括 正 态 分 布 (均值 或 方差 固定 )、x? 分 布 、 二 项 
分 布 和 多 项 分 布 、 几 何 分 布 和 负 二 项 分 布 、 指 数 和 伽 玛 分 布 、 贝 塔 分 布 、 泊 松 分 
布 和 Dirichiet 分 布 。 本 韦 用 到 的 所 有 分 布 都 属于 指数 族 。 指 数 族 有 一 个 重要 性 质 ， 
即 从 单 参数 指数 族 的 一 个 分 布 中 随机 抽取 的 一 个 样本 总 是 具有 一 个 充分 统计 量 S。 
进一步 ， 充 分 统计 量 本 身 具有 的 分 布 也 属于 指数 族 。 


其 他 有 用 分 布 























这 里 我 们 简单 回顾 一 下 在 第 12 章 中 用 到 的 另外 三 个 连续 分 布 。 
A.8.1 ”标定 的 逆 伽 玛 分 布 
自由 度 v>0， 尺 度 因子 为 s > ORE RME A vs) 由 下 式 给 出 ; 
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ar ga PAD go 98128) (4.16) 
v 


其 中 x> 0。 当 v>2 时 期 望 为 (wv-2 ) ?， 否 则 期 望 为 无 穷 。 众 数 总 是 【w+2 )s o 
A.8.2 ”学 生 氏 分 布 
自由 度 v > 0， 位 置 为 wm， 尺 度 o> 0 的 学 生 氏 -! 分 布 Kx; vm, e) 由 下 式 给 出 ， 


pa mI ey" 


TWvi2yvaol vo (A.17) 
它 的 均值 和 众 数 都 为 m。 
A.8.3 ” 逆 Wishart 分 布 


W Wishart fI Wv, S) 由 下 式 给 出 : 


-1 
xem Ts t 一 | [Gi wh 
四 
exo -Fels )) {A.18) 


其 中 "代表 自由 度 ，3 是 一 个 上 xK 的 对 称 正 定 尺度 矩阵 。 瑟 也 是 正定 的 ，W 的 期 户 
是 E(W) = (v-k-1)'S, 


变 分 法 


为 了 理解 这 一 部 分 , 读者 必须 熟悉 相对 焙 的 概念 ( 附录 B )。 在 中 时 斯 体系 中 ， 
我 们 经 常 面 临 一 些 难以 处 理 的 高 维 概率 分 布 P(x ) =P(x1,…,x, )， 它 们 过 于 复杂 以 
至 于 难以 精确 估计 。 变 分 法 ( variational method ) 的 基本 思想 是 构造 一 个 易于 处 
理 的 带 有 参数 6 的 分 布 族 Q( x, 6)， 通 过 选取 这 个 分 布 族 中 离 P 最 近 的 那个 分 布 来 
近似 P(x )。 这 需要 有 一 种 度量 概率 分 布 之 间距 离 的 方法 。 在 变 分 法 中 ， 通 常用 相 
ARKLEY (Q, P) 来 做 这 件 事 。 因 此 我 们 试图 最 小 化 























HO, P)= YOlogS =-4110)+ Fo(-log?) (A.19) 


SUR FA BH HIS) th Pe ZA) ARP, W 
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H(Q,P) =-H(Q) +AEg(£) +logZ(4) =AF+logZ(A) (A.20) 


其 中 下 是 第 3 章 中 定义 的 自由 能 。 由 于 分 割 梢 数 Z 不 依赖 于 6， 因此 最 小 化 9 就 等 价 
于 最 小 化 fF。 由 附录 B 中 的 Jensen 不 等 式 , 我 们 知道 ， 对 于 任何 近似 的 0， 存 在 
H>0， 或 等 价 地 存在 于 之 -logZ( A) /4。 在 最 优点 的 等 号 仪 当 0'=P 时 成 立 。 

在 建 模 时 ， 我 们 经 常 有 一 族 参 数 化 的 模型 ， 其 中 参数 为 w，P 是 后 验 分 布 
P(wD) 利用 贝 叶 斯 理论 和 前 面 的 方程 ， 我 们 可 以 得 到 








H (Q, P) =-H (Q) +Eo[-logP(Dlw) -logP(w)]+logP(D) (A.21) 


其 中 4=1, 下 =-logP( Diw ) -logP(w )。 近 似 分 布 仍然 必须 满足 HH 宕 0 或 下 送 
-logP(D )。 
在 某 种 意义 上 ， 变 分 法 与 高 层次 的 贝 寺 斯 推断 相近 ， 因 为 它们 都 试图 近似 整 
个 分 布 P(wID )， 而 不 像 MAP 信 计 懂 样 仅仅 关心 众 数 。 在 一 个 更 高 的 层次 上 ， 我 
们 可 以 看 整个 8 空间 的 分 布 而 不 仅仅 是 最 优 分 布 Q* 。 作 为 练习 ， 读 者 可 以 进一步 
研究 变 分 法 在 贝 叶 斯 体系 中 的 位 痪 ， 还 可 以 问 一 问 自己 ， 蛮 分 法 本 身 能 否 看 做 
MAP 估 计 的 一 种 形式 。 

当然 变 分 法 的 根本 问题 还 是 近似 函数 族 C( 9) ROW, 9) 的 选取 问题 。 这 
个 函数 族 必须 满足 两 个 相互 冲突 的 条 件 ; 它 必须 足够 简单 以 便于 计算 ， 但 它 又 不 
能 太 简单 ， 否 则 距离 9{ (Q, P) 就 太 大 了 。 易 于 计算 指 的 是 ， 人 们 应 该 能 够 估计 
诸如 和 3F/36 之 类 的 量 。 一 个 简单 的 情形 是 ， 函 数 族 Q 是 因子 分 布 。Q 是 一 个 
子 分 布 ， 当 且 仅 当 它 有 如 下 函数 形式 C(x ，…x, )》=Q《 x1)…Q(x)。 统计 力学 的 
均值 场 理论 是 带 有 因子 近似 的 变 分 法 的 一 个 特例 ( 见 参考 文献 [ 582] )。 更 一 般 
地 ， 如 何 构造 合适 的 近似 申 数 族 @ 取 决 于 具体 问题 ， 它 更 像 一 门 艺 术 而 不 仅仅 是 
科学 。 然 而 在 构造 C@ 时 ， 下 面 几 点 很 有 用 : 

。 混合 分 布 

。 指数 族 分 布 

e 独立 性 假设 和 相应 的 因子 化 〔 附录 CC ) 
例如 ，& 可 以 写 做 因子 分 布 的 混合 分 布 ， 这 里 每 个 因子 都 属于 指数 族 。 需 要 优化 
的 参数 是 每 个 指数 分 量 的 混合 系数 和 /或 参数 ( 均值、 方差 )。 































































































附录 B fa ib. HAR 


CE RRL A PEA BA ERE LE PF Be I 
的 最 基 不 概念 ， 更 深入 的 内 容 见 参考 文献 [ 483, 71, 137,577] 。 信 息 的 三 个 最 
BABAR, FRA. AI Bal ees. 、 传 输 和 压缩 等 
各 种 操作 发 生 转 换 的 问题 时 ， 这 些 概念 极为 重要 。 相 对 粹 是 最 基本 的 概念 ， 另 两 
个 可 以 从 中 推 革 出 。 与 信息 理论 的 大 多 数 表述 方式 一 样 ， 我 们 从 比较 简单 的 粹 概 
念 开始 。 


Hi 











一 个 概 举 分 布 P= (pi…p，) HOME CP) 的 定义 如 下 ; 
H(P)=E(-Iogp)=-Y plogp: (Ba) 


i=] 
TT PRE AE. RA, AER. BE A T h PHO BEE 
机 试验 结果 的 先 验 不 确定 性 或 观察 到 输出 时 所 获得 的 信息 其 。 它 也 是 在 无 噪声 条 
件 下 传输 结果 所 需要 的 最 小 平均 比特 数 〈 对 数 底 取 2 )。 

雯 的 概念 可 以 从 公理 导出 。 考 处 一 个 随机 变 晤 xX， 假设 它 以 概率 p1,…,p, 取 值 
x 目标 是 定义 一 个 量 H (P) =H OX) =H (pp, )， 它 能 够 以 惟一 方式 
度量 概率 分 布 所 代表 的 不 确定 程度 。 值 得 注意 的 是 ， 在 给 定 与 标尺 对 应 的 常数 
子 后 ， 只 需要 三 条 常识 性 的 公理 ， 就 足以 惟一 确定 H。 这 三 条 公理 实际 上 组 成 一 
个 整体 规则 。 这 三 条 公理 如 下 : 

1. YH 是 p, 的 连续 函数 。 























314 生物 信息 学 


2. WERE pH, WAH (P) =H (a) =H (Unse, n) 是 ?的 单调 递增 
函数 。 
3. 结合 律 : 把 所 有 的 事件 zx 分 成 f 个 不 相交 的 类 。4; 表 示 第 ;类 中 的 所 有 事件 的 
编号 ，g= Lica, P; 表示 第 ;类 对 应 的 概率 ， 则 


in Mo San] (32) 


其 中 的 ARAM ER, fed WMA THM TAHA A, Be 














HA (317612) HD IM) (B3) 


根据 第 一 个 条 件 ， 只 要 能 对 m =n, /ni=1,…,m 中 的 有 理 数 情形 确定 9 就 够 了 。8 根 
据 第 二 和 第 三 个 条 件 ， 有 





=H(pi Pa) + > PH) (B.4) 


例如 : 
HO) =H(3/9,419,219)+ 213) + EH) + Zala) (BS) 


RAM, RTA Sm, RE ( B.4 ) 我 们 得 到 

Hm) +(n) =H ) (B.6) 
由 这 个 条 件 可 以 确定 惟一 解 

HUn) =C Inn (B.7) 


其 中 C>0。 代 人 B.4 )， 我 们 最 终 得 到 





H(P)=-C 9 pilogp; (B.8) 


1 


SPRUE EH KECHE. STB IR2, UAE EA IU. TERS BY 
况 下 ， 我 们 在 计算 式 中 取 自 然 对 数 ， 使 得 C=1。 


Q pans FM pans no 一 译 者 注 








B.2 


附录 B ERI, MART 


TERERAA T HED 

eH P) 20 

e Ht PlQ) 专 HLP)， 当 且 仅 当 P 和 Q 独 立时 等 号 成 立 。 

eH PP.) < DUH (PB)， 当 且 仅 当 P 和 QQ 独立 时 等 号 成 立 。 
。 HUP) EPL ON) 的 。 

下 PP = DiM (P|P- A) 

HP) <Hn) , 当 且 仅 当 P 是 均匀 分 布 时 等 号 成 立 。 


REG 
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两 个 分 布 P=(p1,…,p，) 和 @= (gg )， 或 者 对 应 的 随机 变量 x 和 7 之 间 的 


FARE 
H(P.Q)=H(X, "=$ pog 
i=] i 


(B.9) 


MIREKA, BLA Kullback-Liebler fl RRA] (HURT AAI ZS BEL Beak OT 














假说 相对 于 另 一 个 假说 的 真实 性 。 它 也 是 对 数 似 然 度 比值 的 期 望 值 。 严 格 





参看 [ 486 ] REFSER) CRAMP MOHER- PMZ 
间 越 不 相似 ， 相 对 炉 就 越 大 。 相 对 炳 也 可 以 测量 所 给 出 的 信息 量 ， 它 描述 了 一 个 


地 说 ， 


相对 炉 是 不 对 称 的 ， 因 此 也 不 是 一 个 距离 。 它 可 以 通过 取 3 P, QO) +H, P) 来 
对 称 化 ， 但 在 大 多 数 情况 下 ， 椒 需要 这 种 对 称 化 的 定义 。 如 果 用 U= (n,o, 1n) 


表示 均匀 分 布 ， 那么 Ht P, U) =logn-HCP )o TERE LE, HAE ZO ORR 


情形 。 
用 Jensen 不 等 式 (参见 B.4 节 )， 可 以 证 明 的 相对 炉 的 以 下 两 个 重要 性 质 
eH P,Q) 20, 4AR4 son GRE 
oH P, 9 ) 在 P 和 CQ 上 是 凸 (nm ) 的 。 

第 3 章 和 第 4 章 中 关于 统计 力学 和 EM 算法 的 部 分 使 用 了 这 些 性 质 。 








互信 息 


度量 信息 的 第 三 个 概念 是 所 信息 ， 考 虑 两 个 分 布 P 和 @， 以 及 它们 在 积 空间 上 
的 联合 分 布 R。 互 信息 4( P,Q ) 是 联合 分 布 R 与 边缘 分 布 P 和 8@ 的 积 之 间 的 相对 入 ; 


IP, Q) =H(R, PQ) ( 


B.10) 
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从 上 式 可 知 它 总 是 正 值 。 当 R 是 可 分 解 的 时 候 ， 即 等 于 边缘 分 布 的 积 时 ， 互 信息 
为 0。 互 信息 是 相对 粹 的 特殊 情形 。 类 似 地 ， [ 或 自 灶 (self-entropy ) ] 是 互 
信息 的 特殊 情形 ， 因 为 H(P) =4( P,P)。 更 进一步 ， 筷 信息 满足 下 列 性 质 ; 

8 1( P,Q) =0， 当 且 仅 当 利 8 相互 独立 。 

EKP Pa O) = 52,1 (POR Ba) 
用 贝 叶 斯 理论 容易 理解 互信 息 : 它 代表 观察 到 另 一 个 变量 时 ， 某 个 变量 的 不 
确定 性 的 减少 基 ， 也 就 是 先 验 分 布 和 后 验 分 布 的 不 确定 性 的 差 值 。 如 果 我 们 把 两 
个 变量 分 蓝 记 为 Z 和 了 ，X 的 不 确定 性 由 它 的 焙 来 度量 ， 即 3{f( 生 ) =D, PC X=x) 
logP( X=x )。 一 旦 我 们 观察 到 Y=y， 则 X 的 不 确定 性 就 是 其 后 验 分 布 的 炉 ， 即 
AC Xl¥=y) =}, P( X=xlY=y ) logP ( X=xl¥=y )。 这 是 一 个 依赖 于 观察 值 y 的 随机 变 
景 。 它 对 所 有 可 能 的 > 的 平均 值 称 为 条 件 米 : 


HXIY) = Èro) Hx = y) 


























(B.11) 
此 炉 和 条 件 米 之 间 的 差 值 脆 有 盟 六 由 7 的 观察 值 提供 的 关于 X 的 平均 信息 景 。 容 易 
4X, Y) =H(X) -HCXIY) = 
HCY) -HC YIX) =H(X) +H Y) -H(Z) =1(Y, xX) (B.12) 
其 中 Hf(Z) 是 联合 变量 Z= (X, Y) Wo TAARE RR: 


1 (P,Q) =H (P) HPO) = 
HO -HQP) =HP)+H(O) -HR) =1 (Q, P) (B.13) 


可 以 画 出 与 这 些 关系 对 应 的 经 典 Venn 图 ， 这 作为 练习 留 给 读者 。 
































Jensen 不 等 式 
本 书 多 次 用 到 Jensen 不 等 式 。 如 果 一 个 函数 了 是 凸 〈《m ) 的 ， 并且 X 是 一 个 随 
WME, WAE 
Ef (X) <fE(x) (B.14) 


进一步 地 ， 如 果 f APO, WES RRR OR OHE 
盒 来 理解 ， 这 个 不 等 式 在 图 形 上 就 显 前 易 见 了 。f (x ) …, fy) 的 重心 低 于 
了 (x" )， 其 中 x 是 x,…, *% 的 重心 。 作 为 一 种 重要 的 特殊 情况 ，Elog X<logE (X)。 
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由 此 可 以 马上 得 到 相对 炳 的 性 质 。 
FAR 
SOE AUST Ce Ce) A TL FE, EEA PE 
TU ERA DRE BE ae ee 89) 但 是 在 任何 情况 下 ， 如 果 我 们 把 具有 分 布 密度 P 
的 随机 变量 8 的 微分 精 (differential entropy ) 定义 为 
H(X)=- f" pla)log PC) dr (B.15) 
则 在 所 有 具有 方差 的 密度 函数 中 ， 高 斯 分 布 N u, o) 具有 最 大 的 微分 箭 。 任 


意 平均 值 和 方差 中 的 高 斯 分 布 的 微分 粹 是 [ log2xeo?] /2。 考 虑 4 维 空间 中 的 一 个 
随机 变量 X， 其 向 量 均值 为 &， 方 差 矩 阵 为 C， 密 度 为 P?， 则 P 的 微分 炉 满 足 








H(p)< Slog(2ney 1q =H (M,C) (B.16) 


当 且 仅 当 X 的 分 布 几 乎 处 处 符合 N (u, C) 时 等 号 成 立 。 此 处 的 I 表示 Cc 的 行列 
式 。 

使 用 统计 力学 中 波 耳 兹 曼 - 吉 布 斯 分 布 的 推导 ， 可 以 简单 证 明 上 述 结果 。 例 
W, 在 -- 维 情况 下 ， 高 斯 分 布 可 以 看 做 能 量 为 下 (x ) = Cx- 2/207, RAE 
为 2ro、 温 度 为 1 的 波 耳 兹 曼 - 吉 布 斯 分 布 。 因 此 给 定 惟一 约束 为 能 量 期 望 的 观 
察 值 后 ， 高 其 分 布 必然 具有 最 大 的 丧 。 平 均 能 量 由 f(u /20°PC x) 
它 是 一 个 常量 ， 一 个 等 价 的 描述 是 标准 方差 为 常量 旦 等 于 cu。 

这 个 结果 可 以 推广 到 指数 分 布 族 中 。 在 Dirichlet 分 布 的 情况 下 ， 考 虚 所 有 n 维 
分 布 P= (propa) 的 空间 。 假 设 给 定 一 个 央 定 分 布 R= (ryo), FSP SRE 
间 的 距离 ( 相对 粹 ) 定义 分 布 P 的 能 量 : 

E(P)=H(R, P) = Py logy — Èn log p; (B17) 


i 









































WRK TRAE BREED, HUMP A RE eS 
斯 分 布 
et eA HRP) eA HOTT pr 


POP- ZAR) (B.18) 
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其 中 4 是 温度 ， 依 赖 于 平均 能 量 的 值 D。 现 在 ， 如 果 我 们 令 a= din, q= Carat) / 
(Xtn )， 这 个 分 布 实际 上 就 是 参数 为 q 和 Q 的 Dirichlet 分 布 Doo (P) (注意 到 wz>0， 
gz0 且 La =1 )。 若 r, 是 均 旬 分 布 的 ， 则 4g; 也 是 均匀 分 布 。 所 以 ， 所 有 的 
Dirichlet 分 布 都 可 以 看 做 最 大 炳 的 计算 结果 。 














BDA t] 


BAER AER 8° 表示 : 若 给 定 一 个 先 验 分 布 2， 应 该 选择 一 个 分 布 P， 
‘EAE STOR, TERRE P, @ ) 最 小 化 。 而 最 大 炳 准则 显然 
可 以 看 做 Q 为 均匀 分 布 情况 下 的 最 小 相对 粹 准则 的 特例 。 前 面 已 提 到 ， 最 小 相对 
稍 是 用 于 寻找 后 验 分 布 的 准则 ， 或 者 在 先 验 分 布 中 选择 一 个 特殊 的 类 。 只 有 贝 叶 
斯 理论 才能 够 正确 估计 后 验 分 布 ， 因 此 最 小 相对 炉 准 则 (或 最 大 迷 准 则 ) 不 可 能 
总 是 普 适 的 。 事 实 上 上 ， 在 一 些 例 子 中 ， 最 大 炳 似乎 给 出 了 “错误 ”的 结果 。 (7) 
因此 我 们 认为 ， 不 太 可 能 存在 一 个 确定 先 验 分 布 的 普 适 原则 。 如 果 确 实 需 要 这 样 
的 一 个 原则 ， 它 应 该 是 ， 任何 模型 的 最 基本 的 先 验 分 布 都 应 该 是 均匀 分 布 。 换 言 
之 ,在 任何 建 模 工作 中 ， 总 是 隐 含 地 存在 多 级 先 验 假设 ， 最 低 一 级 的 先 验 假设 应 
该 总 为 典型 的 均匀 分 布 。 在 一 些 例子 中 ， 最 小 相对 箭 准 则 和 贝 叶 斯 的 MAP 估 计 能 
得 到 相同 结果 ， 建 议 仔细 阅读 这 些 很 有 启发 意义 的 例子 (参看 第 3 章 )。 























附录 C 概率 图 模型 


C.1 符号 和 预备 知识 


在 此 附录 中 ， 主 要 复习 一 下 概率 图 模型 的 基本 理论 !5738] 及 其 相应 的 高 维 
概率 分 布 的 因子 分 解 。 首 先 介绍 符号 。 如 果 X 和 ?是 两 个 独立 的 随机 变量 ， 则 记 为 





X LY。 关 于 随机 变量 Z 的 条 件 独 立 ， 我 们 定义 为 藉 


LYZ, BM RPCX, YIZ) = 


PCXIZ) PCYIZ)o FRE, MEA WARE IER MRR, RS 
也 不 成 立 。 顶 点 集 为 Y、 边 集 为 E 的 图 记 为 G=( V, 碧 )。 顶 点 集 编号 为 V={1,2,…,n})。 








如 果 是 有 向 图 ， 我们 记 为 G=( VY，E )。 在 考虑 的 所 有 





图 中 ， 任 意 两 个 项 点 之 间 最 





多 只 有 一 条 边 ， 人 顶点 和 它 自己 之 间 不 存在 边 。 在 一 个 无 向 图 中 ，N( i ) 表示 所 有 
与 顶点 ; 相 邻 的 顶点 组 成 的 集合 ， 而 C(;i) 表示 所 有 与 顶点 ;存在 通路 的 顶点 所 组 成 


的 集合 。 于 是 有 


N(i)={jeV: (i,j) €E} 





(C1) 





如 果 一 个 图 的 任意 顶点 对 之 间 存在 一 条 边 ， 则 称 此 图 为 完全 图 。 一 个 图 6 的 





















































Hi (clique) 是 G 的 最 大 完全 子 图。 图 G 的 团 图 (clique graph) G*， 其 顶点 对 应 于 
图 G 的 每 个 团 ， 两 个 顶点 之 间 有 边 相连 ， 当 且 仅 当 相 应 的 团 有 非 空 的 交集 。 























在 一 个 有 向 图 中 ， 边 的 方向 通常 代表 因果 关系 或 时 间 不 可 逆 性 。 我 们 用 符号 
Ni) AN CG) 分 别 定义 驴 点 i 的 所 有 父 节点 和 所 有 子 节点 。 同 样 地 ，C”(i) 和 
COG) 分 别 定义 顶点 的 祖先 (或 “过 去 ”) 和 后 代 (或 “将 来 ")。 所 有 这 些 概念 

















显然 可 以 推广 到 任意 的 顶点 集合 中。 对 任意 的 1 eV， 
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NC) =Ueyisr H (ij) ek} (C.2) 





上 式 也 称 为 ! 的 边界 。 在 一 个 无 向 图 中 ， 当 且 仅 当 集合 7 与 不 相交 ， 并 且 f 中 的 任 
意 顶 点 到 J 中 的 任意 项 点 的 任意 路 径 包 含 K 中 的 一 个 顶点 时 ， 顶 点 集 / 与 顶点 集 / 被 
顶点 集 K 分 离 。 

我 们 感 兴趣 的 是 形式 为 P(X,, …,X, ) 的 高 维 概率 分 布 ， 其 中 变量 X 表 示 隐 
变量 或 观察 到 的 变量 。 特 别 地 ， 我 们 最 为 感 兴趣 的 是 如 何 将 这 种 高 维 分 布 因子 
分 解 为 简单 分 布 的 屁 积 ， 如 条 件 分 布 和 边缘 分 布 。 显 然 ， 联 合 分 布 可 以 用 边缘 
分 布 表示 : 











n- 


P(X... X,)= PCX x) (C3) 


i 


i 
G 


如 果 完 全 条 件 分 布 P (XX: jAi) 集合 是 一 致 的 ， 则 它 也 惟一 定义 了 联合 分 布 
《否则 联合 分 布 不 能 由 条 件 分 布 确定 do OO ] 边缘 分 布 P( X,) 的 完全 集 通 常 很 不 
足以 定义 联合 分 布 ， 除 非 有 特殊 情况 (参见 下 文 的 因子 分 布 )。 如 何 由 条 件 分 布 
和 边缘 分 布 的 一 个 任意 集合 惟一 确定 一 个 多 变量 联合 分 布 ， 这 个 问题 在 参考 文 
献 [198 ] 中 讨论 。 我 们 会 看 到 ， 图 模型 对 应 于 联合 分 布 ， 这 种 联合 分 布 能 方便 
由 局 部 条 件 分 布 或 一 小 类 变量 的 联合 分 布 表达 。 利 用 图 模型 概率 推理 可 以 逼近 
一 些 有 用 的 分 布 ， 如 后 验 分 布 等 。 许 多 技术 被 典型 地 应 用 于 实现 近似 推理 ， 这 
些 技术 包括 概率 传播 、 蒙 特 卡 罗 方 法 、 统 计 力学 、 变 分 法 和 反 向 模型 等 。 

由 于 技术 上 原因 ，'59 假设 P(X,…,X, ) 便 为 正 。 由 于 可 以 赋予 稀有 事件 很 
小 的 非 零 概率 值 ， 因 此 这 个 假设 在 实际 应 用 中 没有 什么 限制 。 考 虑 图 C= (V, E) 
或 G= (V, 巨 )， 其 中 变量 8 与 相应 的 顶点 ;相关 ， 定 义 X 为 变量 X, :ie 1 的 集合 ,1 
是 指标 集 。 对 于 一 个 固定 的 图 G, P( G ) 表示 一 组 概率 分 布 ， 各 变量 间 的 独立 性 
由 图 中 边 的 连续 状态 体现 。 简 单 地 讲 ， 缺 少 一 条 边 意味 着 存在 一 个 独立 关系 。 对 
于 有 向 图 和 无 向 图 两 种 情形 ， 这 些 独立 关系 在 以 下 的 两 节 中 进行 了 精确 定义 。 在 
建 模 中 ， 对 于 任意 的 图 G， 实 际 概率 分 布 可 以 不 属于 集合 P( G )。 然 而 建 模 的 目标 
是 找到 一 个 图 G 和 P( G) 中 的 一 个 成 员 ， 使 其 尽 可 能 地 接近 实际 概率 分 布 ， 其 中 
笨 近 程度 可 以 用 相对 炳 等 进行 度量 。 















































































































































无 向 情形 : 马尔 可 夫 湖 机 域 


在 无 向 情形 下 , 分 布 族 P(G ) 对 应 于 马尔 可 夫 随 机 域 ( Markov random field )、 
马尔 可 夫 网 络 ( Markov network) 或 概率 性 独立 网 络 (probabilistic independence 
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network )， 有 时 还 对 应 于 波 耳 兹 曼 机 (Boltzmann machine) 等 。 (pas 对 称 相互 
作用 模型 在 统计 力学 中 应 用 较 多 ， 例 如 lsing 模 型 和 图 像 处 理 199 - 等 ， 其 中 的 
联系 更 强调 的 是 相关 性 而 不 是 因果 关系 。 


C.2.1 马尔 可 夫 特 性 
G 的 马尔 可 夫 随 机 域 可 以 用 以 下 三 种 等 价 的 马尔 可 夫 独 立 性 中 的 任意 一 种 
来 刻画 。 三 种 马尔 可 夫 独 立 性 之 间 的 等 价 性 是 明显 的 ， 它 的 证 明 留 做 练习 。 
1. ARARA E (pairwise Markov property ) :不 相 邻 的 随机 变量 对 X 和 和 
总 是 否 独立 取决 于 其 他 所 有 随机 变 景 ， 即 对 任意 的 (六 7) EE, A 
































XLX 6 (C4) 


2. 局 部 马尔 可 夫 特 性 (local Markov property): 给 定 相 邻 顶点 时 ， 任 意 随机 
变量 8 与 其 他 所 有 的 随机 变 景 独立 ， 即 对 VY 中 任意 的 tf， 有 


XLX nuana (C5) 


3. 全 局 马尔 可 夫 特 性 〈 global Markov property ) :如 果 ] 和 /是 两 个 被 K 分 离 的 不 相 
交 的 顶点 集 ， 对 应 的 随机 变量 集 在 给 定 第 三 个 集合 的 随机 变量 时 条 件 独立 ， 





X, 1X;|Xx (C.6) 
这 些 独 立 性 等 价 于 以 下 情形 : 


(zx = P(X, xx) (C7) 
C.2.2 因子 分 解 性 


负数 P(X,|X JENG) 称 为 马尔 可 夫 随 机 域 的 局 部 特征 。 通 过 一 种 复杂 的 
方法 ， 这 组 函数 可 以 惟一 确定 全 局 分 布 P( Xi，…, X,)。 特 别 地 ， 与 有 向 情形 不 同 ， 
全 局 分 布 并 不 是 所 有 局 部 特性 的 乘积 。 然 而 有 一 个 重要 的 定理 将 马尔 可 夫 随机 域 
与 波 耳 兹 曼 - 吉 布 斯 分 布 相 联系 。 作 为 局 部 独立 性 的 一 个 结果 ， 可 以 证 明 马 尔 可 
夫 随 机 域 的 全 局 分 布 有 以 下 的 函数 形式 : 














PX) (C.8) 
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其 中 Z 是 通常 的 财 一 化 因子 。C 取 遍 图 G 的 所 有 团 。f 称 为 团 C 的 势 函数 (potential 

function ) 或 团 扼 数 ， 它 仅 依赖 于 出 现在 相应 团 中 的 变量 Xc。j 称 为 能 量 。 事 实 上 ， 

HHRH (C8) 成 立时 ，P 和 G 确 定 一 个 马尔 可 夫 随 机 域 。[501 

通过 定义 并 结合 波 耳 慈 旦 -十 布 斯 表示 ， 容 易 从 团 的 势 函 数 中 推导 出 局 部 特 

征 和 边缘 分 布 。 另 一 方面 ， 势 前 数 不 是 惟一 的 。 虽 然 一 般 情况 下 ， 确 定 一 组 势 函 

是 一 个 非常 细致 的 过 程 ， 但 仍 有 从 局 部 特征 推导 势 函 数 的 公式 。 有 一 种 重要 的 
中 
图 
满 








































































































数 
特殊 情形 特别 简单 ， 即 当 图 是 三 角 化 (triangulated ) 时 的 情形 。 如 果 一 个 图 G 
长 度 大 于 等 于 4 的 圈 包 含 至 少 1 个 旋 (chord )， 则 称 此 图 是 三 角 化 的 。 简 单 连接 
即 树 ) 是 三 角 化 图 的 一 个 重要 特例 。 一 个 图 是 三 角 化 的 ， 当 且 仅 当 它 的 团 图 
是 所 谓 运行 相交 性 running intersection property) 的 特殊 性 质 。 此 性 质 规定 ， 如 
果 图 G 的 一 个 顶点 属于 G 的 两 个 团 Cl, 和 C,， 那 么 此 顶点 一 定 也 属于 团 图 G“ 中 所 有 
在 从 Ci 到 C: 的 路 径 上 的 其 他 团 。 图 G 的 两 个 相 邻 团 C, 和 C? ( 即 团 图 G“ 中 的 两 个 相 
邻 节点 ) 的 交集 ， 称 为 一 个 分 离子 ( separator )。 对 于 三 角 化 图 ， 这 个 分 离 于 将 Cl 
和 CC 分 离 ， 使 它们 条 件 独立 。 
三 角 图 的 男 外 一 个 重要 性 质 是 完美 编号 (perfect numbering )。 如 果 对 于 所 有 
的 i NGC NED2,…,i-1} 这 些 顶 点 构成 的 疼 是 完全 图 ， 那 么 对 于 V 中 各 节点 的 这 种 
编号 是 完美 的 。 一 个 图 是 三 角 化 的 ， 当 且 仅 当 此 图 存在 一 个 完美 编号 ( 见 参考 文 
献 [512, 350] 及 其 中 的 参考 文献 ) 这 里 的 关键 点 是 针对 与 三 角 图 有 关 的 马尔 可 
夫 随 机 域 ， 其 全 局 分 布 有 以 下 的 形式 : 








































































































































































































j- Meč 
Tre (C.9) 


其 中 C 和 3 分 别 取 凯 出 现在 交叉 树 中 的 团 和 分 离子 ， 所 谓 交 叉 树 是 G5 的 最 大 生成 树 
(maximal spanning tree), []-P(Xc) 是 Xc 的 边缘 联合 分 布 。 团 的 势 函 数 因此 是 明 
显 的 。 

当 图 G 没 有 边 时 ， 马 尔 可 夫 随机 域 一 种 非常 特殊 的 情形 ， 即 所 有 的 变量 独立 且 
P(X,,…,X,) = 了 TP(X)。 这 样 的 联合 分 布 或 马尔 可 夫 随机 域 称 为 析 因 的 (fac- 
torial )。 给 定 多 元 联合 分 布 P， 容 易 发 现 ， 从 相对 炳 角度 考察 ， 在 所 有 的 析 因 分 布 
中 ， 与 P 最 为 接近 的 是 P 的 边缘 的 乘积 。 


C.3 有 向 情形 : 贝 叶 斯 网 络 





P(X, 







































































在 有 向 情形 下 ， 分布 族 P( G ) 对 应 于 贝 叶 斯 网 络 、 置 信 网 络 、 有 向 概率 独立 
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络 、 有 向 马尔 可 大 域 、 因 打 网 络 (causal network), BIA (influence 
diagram )， 甚 至 马尔 可 夫 网 络 (Markov mesh ) 等 概念 (一 个 简单 的 分 子 生 物 学 
图 示 见 参考 文献 [322] Jo [ 416,557, 121,106,286,246 | 上 面 提 及 有 向 图 的 边 的 方向 ， 通常 
表示 因果 关系 或 时 间 不 可 道 性 。 这 样 的 模型 是 常见 的 ， 例 如 在 设计 专家 系统 中 。 

在 有 向 情形 下 ， 我 们 有 一 个 有 向 图 G=〔V, 豆 )。 这 个 有 向 图 也 被 假定 为 无 环 
的 (acyclic )， 即 没有 有 向 环 。 这 是 因为 从 局 部 条 件 概率 的 乘积 出 发 ， 不 可 能 在 
环 上 一 致 地 定义 变量 的 联合 概率 。 也 就 是 说 ， 在 一 般 人 情况 下 ， 乘 积 P( XIX, ) 
PC XIX, 》 POX IX, ) 不 能 一 致 地 确定 X,，X,，X 的 分 布 。 一 个 无 环 有 向 图 表示 了 
一 种 偏 序 关系 。 特 别 地 ， 有 可 能 对 顶点 进行 编号 ,使 得 如 果 从 i 到 7 有 一 条 边 ， 旭 
有 仿 序 关系 ;<j。 换言之 ， 联 系 边 的 偏 序 关系 与 编号 方式 一 致 。 这 种 序 关系 也 称 为 
一 个 拓扑 类 。 我 们 将 在 任何 必要 时 候选 择 采用 这 种 序 关 系 ， 使 得 C (i) 的 过 去 包 
BEL HP, ICC) 的 将 来 包含 在 {it1,…,n} 中 。 有 向 图 G=(V,EE ) 的 
伦 图 (moral) 是 一 个 无 向 图 G” = (V, E+M )， 它 通过 以 下 方式 得 到 ， 去 除 G 中 边 
的 方向 ， 并 加 入 一 些 边 ， 使 图 G 中 同一 节点 的 任意 两 个 父 节 点 保持 连通 。 伦 图 这 
个 概念 是 参考 文献 [350 ] 首先 引入 的 ， 用 以 描述 所 有 的 “父辈 ”都 已 “结婚 "。 
现在 我 们 可 以 描述 基本 的 有 向 无 环 图 模型 的 马尔 可 夫 独 立 人 性 。 


C.3.1 马尔 可 夫 特 性 
一 个 有 向 无 环 图 G 的 贝 叶 斯 网 络 ， 可 以 通过 一 系列 等 价 独立 性 中 的 任意 一 个 
加 以 刻画 。 在 所 有 情况 下 ， 有 向 情形 时 的 基本 马尔 可 夫 思 想 是 : 以 现在 为 条 件 ， 
将 来 独立 于 过 去 。 或 者 说 ， 为 了 预测 将 来 ， 所 有 相关 的 信息 只 从 现在 获得 。 
相 邻 马尔 可 夫 特 性 


满足 i<j 的 不 相 邻 的 随机 变量 对 和 X% 是 否 独立 ， 取 决 于 j 的 过 去 中 所 有 别 的 随 
机 变量 。 即 对 于 任意 的 (1,j) eE Big, 有 


































































































XXX, cut (C.10) 





事实 上 可 以 用 更 大 的 集 {1…, REC (7 )。 另 一 个 等 价 的 表述 是 : 在 一 个 节 
点 集 / 中 ，X 与 和 独立 ， 当 且 仅 当 ; 和 j 是 d 分 离 的 ( d-separated ), BRAS FETE MBA 
4 连通 路 径 ( d-connecting J. '1°"! FTA Ht MiB GEE BSE Eo BRM GBY 
的 路 径 中 一 个 节点 上 ， 对 应 路 径 中 经 过 节点 上 的 两 条 边 的 方向 是 一 进 一 出 、 都 是 出 
RARE, DHT AER, RRO, ATAR, MBER 
连通 的 ， 当 且 仅 当 此 路 径 中 每 一 个 内 部 节点 4 或 者 是 线性 或 发 散 并 旦 不 包含 在 /中 ， 
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或 者 是 收敛 并 且 满 足 [kUC* (k) INIZ 如。 直观 上 看 ,i 和 j 是 d 连 通 的 ， 当 且 仅 
当 或 者 在 i 和 /之 间 有 一 条 因果 路 径 ， 或 者 在 fi 中 有 证 据 〈evidence ) 补偿 相互 关联 
的 两 个 节点 。 

局 部 马尔 可 夫 特 性 

除了 它 的 后 代 外 ， 在 它 的 父 节点 中 ， 一 个 随机 变量 X, 独 立 于 所 有 其 他 节点 的 
随机 变量 。 因 此 营 j& CCH) 且 j 基 i, 有 


XL XIX yy (C11) 

















全 局 马尔 可 夫 特 性 

给 定 7 和 J 是 两 个 不 相交 的 顶点 集合 ， 在 有 向 图 G 中 称 K 分 离 [ 和 J， 当 且 仅 当 在 
包含 T、J 和 KK 的 最 小 祖先 集 的 无 向 伦 图 ( moral undirected graph) 中 ， 天 分 离 7 
M [9 1 全 局 马尔 可 夫 特 性 与 这 一 个 分 离 概 念 一 样 ， 即 若 K 分 离 / 和 7， 有 
X,LX;IXx (C.12) 


参考 文献 [557] 中 证 明 ， 有 向 图 G 也 具有 相应 的 伦 图 G* 所 具有 的 所 有 马尔 
可 大 独立 关系 。 一 般 来 说 反之 不 成 立 ， 除 非 G* 是 通过 仅仅 除去 图 G 中 边 的 方向 而 
得 到 ， 也 就 是 说 没有 在 父 节点 间 添 加 新 的 边 。 最 后 ， 三 种 马尔 可 夫 独 立 性 中 的 任 
何 一 种 等 价 于 以 下 公式 : 



























































P(X Kee JPA ee} (C13) 
事实 上 ， 可 以 用 更 大 的 集 {1 1] 代替 CT (i)。 
C.3.2 ”因子 分 解 性 


作为 马尔 可 天 特 性 的 一 个 推论 , 不 难看 出 单 向 局 部 特征 PCXIXw-() 相 互 一 致 。 
事实 上 ， 给 定 一 个 图 ， 这 些 局 部 特征 惟一 确定 关于 此 图 的 贝 叶 斯 网 络 。 实 际 上 
我 们 有 








PX) = [P(x 


这 是 一 个 基本 性 质 。 局 部 条 件 概率 可 以 通过 查询 表 (lookup table) 确定 ， 尽 管 由 
于 得 询 表 太 大 ， 通 过 它 确 定局 部 条 件 概率 通常 不 切实 际 。 通 常会 采用 一 些 更 紧凑 
的 但 缺乏 一 般 性 的 表示 法 ， 例 如 噪声 OR 网 络 !465 或 神经 网 络 表示 法 ， 而 对 于 二 
元 变量 ， 则 可 以 采用 sigmoidal 置 信 网 络 ”1 ， 后 者 的 特征 由 局 部 连通 权重 和 





X-a) (C.14) 











sigmoidal 蚂 数 确定 ， 还 可 以 利用 归 一 化 指数 函数 推广 到 
子 是 在 每 一 个 顶点 有 一 个 局 部 神经 网 络 用 于 计算 局 部 特征 。 


参数 化 的 另 一 例 
C.3.3 学习 和 传播 


在 一 般 的 图 模型 和 特殊 的 贝 叶 斯 
局 部 条 件 分 布 ， 有 几 个 学 习 的 层次 水 于 
献 的 综述 及 参考 可 以 在 参考 文献 [ 10 
的 基本 操作 是 证 据 传播 (propagarion 
更 新 每 一 个 变量 X, WARE, WE 

















二 





任意 两 节点 之 间 的 路 径 数目 不 超过 1 





网 络 





P, 


Fo BRC. 


6,246] 中 找到 。 另 一 个 与 贝 叶 斯 
of evidence ), PI 
据 传 播 在 一 般 的 情形 下 是 NP 完全 的 (NP- 
complete )。! 5- 位 利用 一 种 简单 的 消息 传递 方法 ，[464] 简单 连通 
播 时 间 是 节点 数 n 的 线 


) 的 传 





一 般 情形 ， 可 以 利用 原 图 的 三 角 化 伦 











中 的 网 








与 原 有 网 络 等 价 的 简单 连通 图 
赖 于 这 种 简化 。( 参考 文献 【416, 350 
此 做 了 进一步 改进 。) 





参考 文献 [ 145 ] 给 出 了 一 种 类 似 的 算法 


交叉 树 。 已 有 的 用 多 连通 网 络 的 精确 算法 都 


, 467] 4 
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多 变量 的 情形 。 混 合 模型 








结构 本 身 到 通过 数据 学 习 
， 这 里 不 再 讨论 此 问题 , 文 
网 络 有 关 
给 定 观察 到 的 节点 变量 时 


从 学 习 
3.6 节 外 














( 即 无 向 图 
性 函数 。 对 于 
， 对 原始 变量 进行 聚 类 ， 从 而 构造 
依 
给 出 了 算法 ， 参 考 文献 [ 287 ] 对 

















， 用 于 估计 变量 X; 最 有 可 能 的 概率 


分 布 结构 。 沙 克 特 (Schachter) 等 人 在 参考 文献 [ 468 ] MERT: 在 某 种 意义 


上 ， 所 有 精确 的 推理 算法 都 与 参考 文献 [ 287 
要 的 猜想 是 ， 参 考 文献 [ 416 ] 中 的 简单 的 消息 传递 方法 对 
码 理论 的 实验 观察 和 推导 王 





到 很 好 的 近似 。 这 个 猜测 得 到 编 
文献 [385] )。 


一 般 特性 


值得 注意 的 是 ， 本 j 
馈 人 工 神经 网 络 是 一 种 贝 


C.3.4 


T 
叶 斯 网 络 , j 











尔 可 夫 随 机 域 和 贝 叶 斯 网 





P 所 用 的 大 多 数 模型 都 可 以 看 做 贝 叶 
其 中 局 部 条 件 概率 画 数 是 德尔 塔 函 数 。 同样 地 ， 
HMM 利 马尔 可 夫 系 统一 般 有 非常 简单 的 贝 叶 斯 网 络 表 示 方式 。 


和 [ 145 ] 中 的 算法 等 价 。 一 个 如 
于 多 连通 网 络 也 能 得 


论 的 支持 ( 详 见 参考 


E 











新 网 络 的 实例 。 前 





事实 上 ，HMM 是 马 


络 的 一 种 特例 。 我 们 把 推导 贝 时 斯 网 络 表示 方式 的 过 程 贸 


给 读者 作为 练习 ， 许 多 诸如 混合 分 布 、 分 层 先 验 估计 、Kalman 滤 波 器 和 其 他 状态 
空间 模型 概念 等 的 内 叶 斯 网 络 表示 方法 也 留 给 读者 作为 练习 。 贝 叶 斯 网 络 表示 方式 
的 一 般 性 是 许多 正在 研究 的 模型 类 的 基础 。 这 也 适合 于 HMM 的 许多 推广 形式 ， 例 
如 输入 一 输出 HMM ( 见 第 9 章 )、 树 结构 HMM 7) 和 因子 HMM。'”5] 


将 一 般 的 贝 叶 斯 网 络 传播 算法 应 用 到 特殊 情形 ， 人 们 各 





新 推导 出 一 些 常用 的 


算法 。 例 如 对 于 HMM， 人 们 从 Peari 算 法 得 到 了 通常 的 前 向 一 后 向 算法 和 Viterbi 
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算法 。! ?3 其 他 领域 的 研究 同样 如 此 ， 例 如 编码 理论 ( 快速 编码 和 Gallager- 
Tanner_ Wiberg 解 码 ) 和 Kalman 滤 波 器 理论 (Rauch-Tung-Streibel 光 滑 器 ) 的 研 
究 ， 甚 至 确定 性 的 组 合算 法 〔 快 速 傅 里 叶 变换 )。'**”1 虽然 并 未 仔细 考察 ， 但 我 
们 猜测 上 于 文 无 关 语 法 中 的 内 部 一 外 部 算法 也 是 一 种 特例 。 虽 然 证 据 传播 算法 通 
常 是 NP 完 全 的 ，[29 5381 但 是 利用 蒙特 卡 罗 方 法 〈 如 吉 布 斯 采样 ) aa Cn 
中 值 域 理论 ， 参 见 附录 A 和 参考 文献 【465,276, 204 ] )， 有 时 甚至 限定 特定 问题 
的 特殊 网 络 结构 ， 可 以 得 到 一 些 近 似 算法 。 吉 布 斯 采样 具有 简单 性 和 普遍 性 ， 它 
对 贝 叶 斯 网 络 显得 特别 具有 吸引 力 。 


C35 RAM 


观察 到 与 可 见 节点 关联 的 变量 后 ， 对 于 其 他 任意 节点 ;， 我 们 利用 其 他 所 有 变 
量 给 定时 的 条 件 概率 对 其 取 值 采样 。 根 据 因子 分 解 公式 ( C.14 )， 我 们 有 
P(Xy) n(x] 


vin) 
PRIX, a) = PK 4a) La POX, aX) (15) 


通过 化 简 分 子 和 分 母 ， 由 上 式 得 到 


(xX, o H jer P(X Ky a) 
x. P(X, = MOLara) 
正如 期 望 那样 ， 吉 布 斯 采样 所 需 的 条 件 分 布 是 局 部 的 ， 它 只 依赖 于 节点 i 及 其 父 节 
点 和 子 节点 。 从 而 可 通过 在 每 个 节点 上 对 记 数 值 进 行 平均 得 到 后 验 佑 计 ， 这 样 就 
只 占用 非常 少 的 内 存 。 可 以 通过 在 每 个 节点 上 对 概率 进行 平均 得 到 更 加 精确 的 估 
it (参考 文献 [396 ] 对 此 有 部 分 讨论 )。 进 行 吉 布 斯 采样 时 ， 关 键 在 于 过 程 的 周 
期 (对 于 多 次 使 用 相同 的 采样 器 ， 则 考察 其 重复 时 间 ) 和 放弃 初始 样本 (“bum- 
in” )， 因 为 这 些 都 无 法 代表 平衡 分 布 。 


C.3.6 ”休眠 一 响应 算法 和 Helmholtz 机 


在 参考 文献 [ 255,146 ] 中 叙述 了 一 类 特殊 的 贝 时 斯 网 络 的 条 件 分 布 学 习 算 
法 ， 这 个 算法 在 理论 上 有 意思 但 未 必 实用 。 这 类 贝 叶 斯 网 络 由 识别 网 络 和 生成 网 
络 这 其 个 逆 模 型 组 成 。 始 于 输入 层 ， 识 别 网 络 有 一 个 前 馈 层 构造 。 所 有 隐 层 中 的 
节点 对 应 随机 二 值 变量 ， 更 一 般 的 情形 也 类 似 ， 例 如 对 于 多 值 单元 。 利 用 组 合 权 
重 和 Sigmoidal 激 活 函 数 ， 可 以 在 神经 网 络 类 型 中 实现 局 部 条 件 分 布 。 单 元 ;的 激 



































P(x 








Xa) = (C.16) 
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活 概率 由 下 式 给 出 


P(X, == aa (C.17) 
lte keN (a) 

其 中 x 为 前 一 层 节 点 的 状态 。 生 成 网 络 则 是 识别 网 络 的 镜像 。 它 是 一 个 前 馈 分 层 
网 络 ， 起 始 于 识别 网 络 的 顶端 隐 层 ， 终 止 于 识别 网 络 的 输入 层 。 它 使 用 的 节点 也 
与 识别 网 络 相同 ,但 带 有 一 个 逆向 连接 集 。 这 些 逆 向 连接 集 引 入 了 局 部 环 ， 结 果 
在 构造 的 联合 网 络 中 引信 环 。 然 市 ， 这 些 环 并 不 会 对 结果 造成 什么 不 良 影响 ， 
为 学 习 过 程 中 是 交替 而 不 是 同时 使 用 这 两 个 网 络 。 
根据 公认 的 生物 学 解释 命名 的 休眠 一 响应 〈 sleep-wake ) 算法 是 前 向 和 后 向 
连接 权重 的 一 种 非 监督 学 习 算法 。 此 算法 在 再 种 状态 之 间 进 行 切换 。 在 每 -- 种 状 
态 下 ， 一 个 网 络 节点 的 输出 成 为 另 一 网 络 的 局 部 日 标 ， 遂 过 德尔 塔 规则 训练 其 权 
重 。 在 响应 状态 (wake phase) 下 ， 识 别 网 络 被 激活 ， 并 根据 下 式 更 新 生成 权重 
Awg =m (x; —p;) (C.18) 
Ehx 代表 识别 网 络 中 节点 j 的 状态 ，p) 是 根据 生成 连接 由 ( C.17 ) 确定 的 相应 
概率 。 休 眠 状态 (sleep phase) 则 使 用 一 种 对 称 的 更 新 规则 ， 其 中 通过 生成 网 络 

的 输出 用 于 修改 识别 网 络 的 权重 。[2555741 













































































HRD HMM 相关 技术 : 标定 、 周 期 构架 、 
状态 函数 和 Dirichlet 混 合 模型 


Di 标 定 


我 们 已 经 指出 ， 概 率 P( xlO,w ) 的 数值 一 般 非常 小 ， 很 容易 超出 机 器 的 精度 
WR, MPR eo, (+)， 随 着 :的 增 大 ， 也 会 出 现 超出 机 器 精度 范围 的 情况 。 
类 似 的 情况 也 会 发 生 在 后 向 变 盟 B, (+) 随 上 减 小 时 。 解 决 这 个 问题 的 方法 是 用 一 
个 仅 依赖 于 + 的 适当 的 系数 ， 标 定时 刻 + 的 前 向 和 后 向 变量 。 可 以 以 互补 的 方式 
定义 和 有 的 标定 系数 ， 使 得 训练 公式 经 过 标定 后 保持 基本 不 变 。 我 们 下 面 将 依照 
参考 文献 【439 ] 的 思路 ， 给 出 前 向 变量 和 后 向 变量 的 精确 标定 公式 。3 为 了 简单 
起 见 ， 附 录 中 考察 的 HMM 只 包含 生成 状态 。 我 们 把 包含 删除 状态 的 一 般 公式 的 推 
导 留 给 读者 作为 练习 。 

D.1.1 前 向 变量 的 标定 


更 准确 地 讲 ， 我 们 定义 一 个 新 的 标定 变量 























ao 


DE) (Di) 
在 时 刻 0， 对 于 任意 状态 i, 有 mm(O) = &i(0) 。 标 定 变量 可 以 通过 递归 计算 效 得 ， 


O 参考 文献 [439 ] 中 的 标定 公式 有 些 错误 ， 作 者 附 上 了 更 正 说 明 。 
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其 中 传播 步 又 和 标定 步骤 交替 进行 。 令 ÂO 表示 对 应 于 6,2) 的 经 过 传播 步 又 但 
尚未 经 过 标定 的 数值 。 假 设 所 有 变量 均 已 计算 至 时 刻 :-1， 我 们 首先 利用 (7.5 ) 
进行 传 所 计算 得 到 





ED= 马刀 -Doex (D2) 
jeN (i) 


HF Â (0) = mw(0) 。 这 与 w 人 的 传播 公式 形式 相同 。 进 一 步 利 用 (D1) 得 到 





SO- (D3) 


然后 表 对 GORE, RIVERA (D3) 标定 等 价 于 对 a 进行 标定 : 
a) _ af) a 
£40 pT) a 


ERS Pe i Met) = DG). 由 (D3), e) 
和 Qa 的 标定 系数 C(t) =F aA 之 间 的 关系 为 








(D.4) 


cO=TIso (D.5) 


D.1.2 后 向 变量 的 标定 


后 向 变量 的 标定 稍 有 不 同 ， 共 中 标定 系数 由 前 向 传播 计算 获得 ， 而 不 是 通过 
直接 获得 。 尤 共 是 这 意味 着 ， 在 后 向 传播 开始 之 前 必须 首先 计算 前 向 传播 。 相 
应 地 ， 我 们 定义 一 个 标定 变量 





























8 (1) - BD. 
Bt) = DO (D6) 
其 中 标定 系数 定义 为 
r 
DA=] fe) (D7) 
在 下 面 我 们 会 看 到 选择 这 一 定义 的 原因 。 假 设 所 有 变量 均 已 反 向 计算 至 (t+1) 时 








刻 ， 首 先 应 用 (7.10) 对 让 进行 反 向 传播 计算 得 到 


ho= 5 Bilt + tp apn (D8) 


Jen" (i) 
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然后 用 c(1) 对 房 (7) 进行 标定 ， 得 到 


0) _ BO (D9) 
c(t) Dlr 





B= 
这 正如 (D.6) 所 要 求 的 形式 。 
D.1.3 ”学 习 过 程 


下 面 考虑 任意 一 种 学 习 算法 的 公式 ， 如 计算 转移 参数 的 EM 学 习 算 法 公式 
(7.31): 





pa BrO Lobe ee BEAD) (D10) 


PS) Ee jes% (te ye BE +1) 








任何 形 如 (DB 人 + 的 乘积 等 价 于 CAOB +), PCC) DGH) =T cD) 
并 且 与 ! 死 关 。 而 分 子 和 分 母 中 的 常数 C 都 被 约 去 了 。 因 此 只 需 用 相应 的 标定 变 
量 & 和 替代 原 公式 中 的 a 和 8 就 可 以 直接 使 用 相同 的 学 习 算 法 公式 。 类 似 的 推导 
过 程 可 应 用 于 其 他 学 习 算法 。 























D.2 周期 构架 


D.2.1 轮 状 构架 


在 第 8 章 讨论 的 轮 状 构架 ( wheel architecture) 中 ， 我 们 可 以 设想 有 一 个 初始 
状态 与 轮 上 所 有 状态 相连 接 。 类 似 地 ， 可 以 设想 也 有 一 个 终止 状态 与 轮 上 所 有 状 
态 相 连接 。 轮 状 构架 不 包含 删除 状态 ， 因 此 所 有 算法 《前 向 、 后 向 、Viterbi 以 及 
标定 ) 都 将 被 简化 ， 即 不 再 需要 区 分 生成 状态 和 删除 状态 。 


D.2.2 环 状 构架 


环 状 构 架 (loop architecture) 比 轮 状 构架 更 具 一 般 性 ， 因 为 它 包含 删除 状态 ， 
甚至 包含 经 过 删除 状态 的 循环 路 径 的 概率 。 我 们 引入 如 下 表示 法 : 
。% 表 示 环 的 锚 状 态 。 锚 状态 是 一 个 删除 (OL) 状态 ， 尽 管 它 不 与 任何 主 状 
态 相 关联 。 
。 工 表示 环 中 的 状态 集合 。 
sk 表示 沿 环 移动 一 周期 而 不 生成 任何 符号 的 概率 。 它 是 环 中 所 有 与 连续 的 
圳 除 状态 相关 的 的 乘积 。 
























































332 生物 信息 学 


。 六 表示 构架 中 从 状态 ;到 状态 /的 最 短 旺 路 径 的 概率 。 

。 以 表示 从 状态 ;移动 到 状态 ;市 不 生成 任何 符号 的 概率 。 对 于 任意 两 个 状态 ， 

者 连接 它们 的 路 从 中 至 少 有 一 条 包含 锚 状 态 ， 则 有 p = i(14e +(e) = 
Hi-k)> 


前 向 传播 公式 
无 论 对 于 即时 传播 还 是 在 平衡 状态 ， 前 向 传播 公式 都 成 立 。 对 于 任何 生成 状 
态 ie E, 
œ(t+1)= 2 Oe x (D11) 


TEA 


对 于 任意 哑 状 态 i 以 及 锚 状 态 


a,{t+1)= a Dy 
wa (D.12) 


对 于 锚 状 态 ， 我 们 可 以 将 来 自 环 和 来 自 旁 侧 部 分 的 贡献 分 离 ， 
ottD)= Yo oilt+Dw+ E a+) (D13) 


JeN“(h)-L JEN (NL 


实 现 

实现 上 述 传播 算法 有 三 种 方式 : 第 一 ， 选 代 即 时 传播 公式 直到 平衡 为 止 。 第 
二 ， 对 于 锚 状 态 ， 只 对 平衡 公式 沿 环 状 构架 适 代 一 次 。 具 体 地 讲 ， 令 za C), 
将 该 等 式 作为 的 函数 沿 环 状 构 架 前 向 传播 一 次 ， 最 终 求解 -。 当 循环 完成 时 ， 将 
获得 一 个 形 如 x=ax+4 的 等 式 ， 于 是 x=b/( 1-a )。 然 后 ， 用 这 个 新 值 代替 x， 代 人 表 
waka, (l) ,其 中 ie Lo 第 三 ， 求 z 的 解析 解 ， 即 直接 求 *=o (41) 的 平衡 什 
(例如 求 上 述 a 利 b )。 注 意 到 产生 表达 式 o (+1) 的 路 径 ， 可 以 根据 Xx! 生 于 环 内 
部 还 是 环 外 部 分 为 两 类 : 











MNS Bal Miyleere rele E ery (D.14) 
等 号 右 侧 的 第 二 项 对 应 于 在 环 内 部 生成 Xx”! 的 情况 ， 它 包含 任意 数量 的 结束 于 锚 
状态 的 哑 转 移 。 这 项 中 包含 的 未 知 变量 mw ( t+1 ) 可 以 由 传播 算法 中 上 次 迭代 的 结 
果 w (1) 计算 获得 。 由 此 ， 我 们 最 终 可 以 得 到 


1 
& (t+ 1) = — È aftt)y+ YF (Haye iat (D.15) 
TR jen (A)-L jeENL ken (i) 
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EEA 我 们 使 用 如 下 方法 一 一 前 向 传播 两 个 变量 @ (1) 


和 (fj)。ef 则 可 以 被 解释 为 状态 ;在 时 刻 1 的 概率 ， 这 时 环 中 已 经 产生 了 符号 1， 
Pe 对 于 环 中 的 任意 生成 状态 i， 传 播 公式 为 
œlt+l)=a}(t+1)= > CROA (D16) 


jeN (i) 
对 于 环 中 的 任意 哑 状 态 ; (删除 状态 或 销 状态 )， 传 播 公式 为 


L 一 L 
ar(t+I)= sein ká (t+ i)i; (D17) 








这 些 公式 应 用 gf (t+1)=0 初 始 化 ， 并 沿 所 有 路 径 通 过 环 传播 一 次 ， 最终 得 
到 of(t+1) 的 新 值 。 于 是 我 们 得 到 
alt+l)=— È a+, +a) (D.18) 


lk | ev 


在 时 刻 0， 做 如 下 初始 化 ; 

wm%(0) =0， 对 任意 生成 状态 ; 

e Qf(0) =0 ， 对 任意 状态 ， 包 括 锚 状 态 ; 

. (0) = È jen- (h)-L C(O (1-1) 

。 OE ergy, MIR PRAPRAS SOLE RERE. 

通过 在 循环 中 同时 传播 a +) Mal), AER RA TEER — 
次 传播 计算 中 获得 。 在 步 又 :， 假 设 对 于 定位 状态 和 全 部 生成 状态 ，a (1) 已 知 。 
具体 步骤 如 下 : 

e $ af(tt+l)=0; 

。* 沿 环 同时 前 癌 传 播 : AEREN ( D.12 ) Hal) ,对 生成 状态 由 (D16) 

计算 a (41) = Q(t+1)， 对 所 有 哑 状 态 还 需 由 (D17) 计算 of G41); 

e h (D.18) 计算 m (rt) 

用 相同 的 方法 可 以 导出 环 状 构架 的 后 向 传播 和 标定 公式 。 








REAM: aA h tE 


正如 第 7 章 和 第 8 章 中 所 讨论 的 ， 任 何 依赖 于 家 族 中 氨基 酸 或 核 苷 酸 的 局 部 组 
成 的 函数 ， 如 箭 、 朴 水 性 或 可 这 曲 性 等 ， 都 可 以 用 HMM 进 行 研究 。 尤 其 是 可 以 
通过 HMM 主 干 概率 计算 这 类 晒 数 的 数学 期 望 ， 以 加 强 一 些 在 家 族 中 单个 成 员 序 
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列 上 通常 难以 显现 的 模式 。 只 对 单个 字符 〈 如 精 、 朴 水 性 ) 定义 相应 的 函数 或 标 
度 时 ， 很 容易 计算 其 数学 期 望 。 而 当 函 数 依赖 于 相 邻 的 二 元 或 三 元 字符 时 ， 计 算 
会 变 得 复杂 一 些 ， 经 常 出 现 的 情形 是 DNA 的 二 核 背 酸 或 三 核 苷 酸 TSh, KR 
小 体 定位 、 堆 积 能 、 螺 旋 扭 曲 ( propeller twist) 等 ] 。 围 绕 HMM 主 干 的 这 些 函 
数 能 够 帮助 我 们 确定 相应 家 族 的 结构 和 功能 特性 。 目 前 的 HMM 仿 真 程序 可 以 提 
供 50 种 以 上 的 函数 。 下 面 我 们 将 就 可 弯曲 性 讨论 如 何 计算 这 类 数学 期 望 ， 由 于 依 
赖 于 三 元 字符 ， 因 此 与 仅 依赖 于 单个 字符 的 函数 相 比 ， 计 算 会 困难 一 些 


D.3.1 动 机 


为 了 避免 引 和 人 外 部 干扰 (exogenous artifact )， 我 们 可 以 通过 多 重 序列 比 对 直 

接 计 算 平 均 可 弯曲 性 的 分 布 图 。 尽 管 多 重 序列 比 对 方法 很 有 用 ， 我 们 仍 希望 能 够 
通过 HMM 直 接 计算 可 弯曲 性 的 分 布 图 ， 具 体 原 因 如 下 : 
。 HMM 计 算得 更 快 ， 因 为 一 旦 训练 获得 HMM 后 计算 即 可 进行 ， 而 无 需 将 所 

有 序列 与 模型 进行 比 对 。 

。 在 我 们 试验 过 的 许多 情况 下 ， 由 HMM 产 生 的 分 布 图 与 多 重 序列 比 对 的 结 

困 具 有 非常 相似 的 特征 。 两 种 分 布 图 的 一 致 性 ， 进 一 步 证 明 HMM 对 于 给 

定数 据 是 一 个 很 好 的 模型 ， 而 两 种 分 布 图 相差 较 大 的 情况 ， 则 能 够 给 我 们 
















































































































































































一 些 启示 。 
。 在 某 些 情况 下 ， 例 如 数据 很 少时 ， 正 则 化 得 很 好 的 HMM 能 够 产生 更 好 的 
可 咨 曲 性 分 布 图 。 








D.3.2 ”HMM 可 弯曲 性 分 布 图 的 定义 


下 面 我 们 将 使 用 标准 线性 HMM 构 架 ， 当 然 也 可 以 使 用 环 状 或 轮 状 构架 进行 
类 似 的 计算 。 在 HMM 可 弯曲 性 分 布 图 的 定义 中 ， 很 自然 地 只 考虑 HMM 的 主 状态 
plo…，ppwn， 其 中 mo 为 初始 状态 ，mw) 为 终止 状态 〔 除 非 转移 到 插 人 或 删除 状态 
的 概率 很 高 ， 否 则 在 我 们 的 计算 中 将 不 包含 它们 )。 序 列 0 = (Xp, XY) 在 位 
置 i ( 远离 边界 时 ) 的 可 弯曲 性 B(i,O )， 可 以 被 定义 为 在 长 度 为 多 = 2 入 1 的 窗口 上 
的 平均 写 元 可 弯曲 性 : 






































Boz Sx, XG?) (D.19) 

We i=l 
其 中 b( X,Y, Z) RARER F XYZ EES tE ( 见 文献 【96 ] 及 其 参考 
文献 ) EIKKERN S tE G) 自然 被 定义 为 所 有 可 能 的 主干 序列 的 
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平均 值 ; 
BG) = > Bli, O)P(O) (D.20) 


0 
然而 ， 以 上 公式 的 计算 效率 并 不 高 ， 因 为 可 能 的 序列 数量 是 NN 的 指数 函数 。 幸 好 
我 们 能 找到 更 有 效 的 方式 进行 计算 。 


D.3.3 ”可 弯曲 性 分 布 图 的 高 效 算法 
由 《D.20 ) 我 们 发 现 

















N Ne 


)= 2 BG OT [ews Len, (D.21) 


o kel k=0 


最 后 一 项 是 所 有 HMM 主 干 转移 概率 的 乘积 ， 它 等 于 某 一 常数 C。 再 将 (D.19 ) 代 
A (D.21) 得 到 





C i+i-2 N 
B0= > Dore N Tes (D.22) 
0 jt kl 
交换 求 和 顺序 可 得 
B= > 2 (Xo XS DiG eax, (D.23) 
Ws 


为 了 对 所 有 序列 求 和 ， 我 们 可 以 根据 出 现在 位 置 j, 并 1 和 j+2 的 符号 X，Y 和 Z 将 序 
列 分 为 不 同 的 组 。 经 过 化 简 最 终 得 到 


B(i)= 市 c's yr (X,Y, Zejxejrivejr2z (D24) 


Ji-LXYZ 











此 ，( D.20 ) 中 的 定义 等 价 于 ( D.24 ) 中 的 定义 ， 它 是 对 窗口 中 所 有 可 能 的 三 
元 字符 进行 的 求 和 运算 ， 这 个 求 和 是 以 在 相应 位 置 的 生成 概率 的 乘积 作为 权重 的 。 
EX (D.24) 显然 是 最 容易 实现 的 ， 我 们 已 经 利用 这 一 定义 从 HMM 计 算 过 许多 
可 守 曲 性 的 分 布 图 ， 其 中 常常 忽略 了 恒定 的 标 度 因子 C/W。 一 般 而 言 ， 边 界 的 影 
响 仪 限于 最 初 和 最 终 ! 个 状态 。 





























Dirichlet 混 合 模 型 


首先 回顾 一 下 第 2 章 和 第 3 章 的 内 容 。Dirichiet 分 布 Do P) 的 均值 为 2， 最 
大 值 为 px=( qx-1) /《 QI41)， 其 中 对 于 所 有 X 有 px 之 0。 一 个 混合 Dirichlet 分 布 
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定义 为 P(P) = Zi Duo(P) ,其 中 混合 系数 须 满足 Ae 0 及 也 入 =1。 根 据 
数学 期 望 的 线性 特性 ， 混 合 分 布 的 数学 期 望 为 ,14@, 。 对 于 一 模型 ， 我 们 一 般 
无 法 一 般 性 地 确定 最 大 值 的 解析 表达 式 。 


D.4.1 Dirichlet 混合 先 验 分 布 


考虑 如 何 为 与 BMM 生 成 状态 (或 等 价 的 比 对 列 上 的 骨 子 模型 ) 相关 的 生成 
BAP = (py) 选择 一 个 先 验 分 布 。 这 里 px 为 模型 的 参数 。 数 据 集 D 由 在 该 列 观察 
到 字符 出 现 的 次 数 D = (ny) 构成 ， 并 有 约束 条 件 Sym =N 。 该 数据 集 的 似 然 
函数 由 下 式 给 出 ; 











POD) =PCrxlex)= TT Re (D.25) 


我 们 已 经 看 到 单一 的 Dirichlet 分 布 可 以 作为 一 个 自然 的 先 验 分 布 。 然 而 ， 这 样 选 
取 的 先 验 分 布 ， 其 灵活 性 有 时 会 受到 一 些 限 制 ， 特 别 是 对 所 有 的 列 或 生成 状态 选 
择 相 同 的 Dirichlet 分 布 。 而 Dirichlet 混 合 分 布 则 是 一 个 正如 参考 文献 【489 ] 所 述 
的 更 灵活 的 先 验 分 布 : 

















P(P)= D4; Dro (P) (D.26) 
f=] 








其 中 相同 的 混合 又 被 用 于 所 有 可 能 的 列 ， 以 反映 蛋白 质 中 氨基 酸 的 一 般 性 分 布 。 混 
合成 分 项 Duo WE RIES RAT WERE, FEA — 
POTEET SPAMS REP UKM, (AOR RB ewe [497] )。 HE 
要 指出 的 是 ， 上 述 混合 模型 不 同 于 在 每 一 列 的 先 验 分 布 上 应 用 不 同 的 混合 系数 集 。 
它 也 不 同 于 以 类 似 于 第 9 章 中 介绍 的 HMM/NN 混 合 模型 方法 ， 将 每 个 P 参 数 化 为 一 个 
混合 模型 ， 以 减少 HMM 生 成 参数 的 个 数 。 其 中 ， 给 定 n<l4| ( 在 参考 文献 [ 489 ] H, 
=9 为 最 优 值 )。 我 们 将 探索 这 些 不 同 的 方法 留 给 读者 作为 练习 。 

现在 我 们 从 单一 Dirichlet 混 合 先 验 分 布 及 其 似 然 度 出 发 ， 根 据 贝 叶 斯 定理 ， 
可 以 很 容易 地 计算 出 后 验 分 布 









































可 











新 的 混合 项 定义 为 
n + Ogix 


B=N+a, 和 Yx= Nea, 


(D.28 ) 
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PRBE XJ 
Bo,O)= 





(D.29) 


照例 有 cx>0，9x>0 和 vdqx =l. FMEA IEA E E E EA 
在 这 种 情况 下 ,后 验 分 布 仍 是 一 个 Dirichlet 混 合 分 布 ， 但 其 成 分 和 混合 系数 不 a. 
由 于 后 验 分 布 在 P 上 的 积分 必 为 1， 我 们 马上 可 以 得 到 


BBR) 


P(D)= Dae Ba 0) 


(D.30) 
正如 前 面 所 指出 的 ， 我 们 无 法 获得 MAP 估 计 的 解析 表达 式 ， 尽 管 可 以 通过 一 些 选 
代 过 程 近似 地 估计 它 。MP 的 鸽 计 很 简单 ， 因 为 它 对 应 于 后 验 分 布 的 平均 ; 


+__ tS, BB,R) 
WR Ba 0) 


这 提供 了 一 个 在 上 述 体系 下 估计 模 型 的 最 优 参数 的 公式 。 参 考 文献 [ 489 ] 中 讨 
论 了 有 关 的 数值 计算 实现 问题 。 


D.4.2 分 级 Dirichlet 模 型 


在 分 级 模型 中 ,我 们 引信- 个 更 高 层次 的 先 验 分 布 ， 例 如 关于 上 述 模型 的 混 
合 系数 的 Dirichlet 先 验 分 布 。 这 个 两 层 模 型 也 是 - -个 形 如 P( PI%) = 24; Duo(p) 
的 混合 模型 ， 但 它 满足 


























(D.31) 











P(A) =Dyo(A) = Tall pa ape (D.32) 
于 是 可 以 得 到 
P(P) = Í, P(PIA)P(A)aa (p33) 
交换 求 和 与 积分 运算 可 得 


-Sn ho lP) f RaDa) |= Sansa ln) (D.34) 


第 二 个 等 式 由 Dirichlet 期 望 公式 导出 。 因 此 这 个 两 级 分 级 模型 实际 上 等 价 于 一 个 
一 级 Dirichlet 混 合 模型 ， 其 中 混合 系数 9 为 分 级 模型 中 第 二 级 Diriehlet 先 验 分 布 的 
数学 期 望 。 























附录 E 高 斯 过 程 、 核 方法 及 支持 向 量 机 





本 附录 中 将 简要 回顾 几 类 重要 的 机 器 学 习 方法 : 高 斯 过 程 、 核 方法 (kernel 
method ) 以 及 支持 向 量 机 。' 4 


高 斯 过 程 模型 


考虑 一 个 回归 问题 ， 有 kK 对 从 某 个 未 知 分 布 中 提取 的 输入 -输出 训练 样本 
Gayot Gi Yeo 输入 x 是 一 个 a 维 向 量 。 为 简单 起 见 ， 我 们 假设 y 是 一 维 
的 ， 但 很 容易 将 其 扩展 到 多 维 的 情况 。 回 归 的 目标 是 从 给 定 的 样本 中 学 习 x 和 y 
之 关 的 函数 关系 。 高 斯 过 程 建 模 方法 ' 2063%1 又 称 为 “kriging”， 为 回归 和 分 
类 问题 提供 了 灵活 的 概率 体系 。 许 多 非 参数 回归 模型 等 价 于 高 斯 过 程 ， 例 如 带 
有 一 个 节点 数 无 限 的 隐 层 且 权重 分 布 为 高 斯 先 验 分 布 的 神经 网 络 。[3%] 高 斯 过 
程 也 可 以 用 于 直接 确定 函数 在 空间 上 的 概率 分 布 ， 而 不 需要 以 神经 网 络 体系 为 
基础 。 

高 斯 过 程 是 一 些 变量 7= (y (a)y a)r) 的 集合 ， 服 从 如 下 形式 的 联合 
高 斯 分 布 





























P(rlc.{x}) = tt) (E.1) 
上 式 对 任意 bx) | 序列 成 立 ， 其 中 的 HA 是 均值 向 量 ，Cy= C (x, x) Ax Aly ZA 
协 方差 。 为 简单 起 见 ， 下 而 将 假设 4=0。 对 噪声 和 建 模 函数 的 先 验 假设 体现 在 协 
方差 矩阵 中 。 以 下 而 将 描述 各 种 合理 确定 C 的 参数 的 方法 。 根 据 (E1), 与 一 个 
测试 实例 zx 对 应 的 变量 y 的 预期 分 布 可 以 通过 观察 到 的 训练 样本 得 到 ， 换 言 之 ， 简 
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单 的 计算 表明 ?服从 高 斯 分 布 
#2 
pol GERAN Dore) = 5 of oa (E.2) 
其 中 ， 
y =k(x) CE Qiy) E o= C(x, x)= k(x)? CR R(x) (83) 





其 中 k(x) = ( C(x,x) ,…,C (xx))，Cx 表 示 基 于 R 个 训练 样本 的 协 方差 矩阵 。 
E.1.1” 协 方差 的 参数 化 


高 斯 过 程 模型 由 它 的 协 方差 函数 确定 ， 协 方差 函数 C 《x x) 的 惟一 约束 是 
它 必 须 对 任意 输入 得 到 半 正 定年 阵 。 对 于 平衡 信号 的 情况 ， 调 和 分 析 中 的 
Bochner 定 理 ( 见 参考 文献 [ 177 ] ， 完 整 的 内 容 将 在 下 文 给 出 ) 利用 传 里 叶 变 换 
给 出 了 这 类 函数 的 完整 特征 。 我 们 已 知 两 个 正 〈 或 正定 ) 矩阵 的 和 也 是 正 的 (或 
正定 的 )， 因 此 协 方差 矩阵 可 以 方便 地 参数 化 为 各 种 正成 分 的 和 。 有 用 的 成 分 具 




















有 以 下 形式 : 
。 品 声 方差 ， 65,9? ， 或 者 更 一 般 的 形式 6y/() ， 后 者 用 于 与 输入 相关 的 噪 
声 模 型。 
© FMI: Cry) = G8 exp(-L1 Plump)’ ) 


e 以 及 更 一 般 的 形式 : (xax) = enp(—D Paley 一 zh 





’) 
。 周 期 协 方差 ， C(xo)= o exp(- D {Pp sin a(x. — Kyu ynJ) 
注意 一 个 较 小 的 p, 值 所 刻画 的 成 分 x， 在 很 大 程度 上 ， 它 以 一 种 与 自动 关联 

决定 框架 (automatic relevance determination framework ) 有 关 的 方式 与 输出 不 相 


Ko MO 为 简单 起 见 ， 我 们 用 6 表示 模型 的 超 参 数 向 量 。 不 必 使 用 在 超 参数 空间 
上 元 长 的 蒙特 卡 罗 积 分 ， 可 以 通过 最 小 化 负 对 数 似 然 度 





Eio) = Flog det Cx rinci +Š iog2a {E.4) 


估计 出 一 个 6 值 如 果 不 用 特殊 的 快速 算法 ， 这 需要 求 协 方差 矩阵 的 着 ， 大 约 需要 O 
CN) 计算 量 。 然 后 可 以 根据 (E3) 实现 预测 或 分 类 。 例 如 ， 通 过 下 面 的 方法 可 以 
立即 得 到 两 类 别 分 类 的 模型 : 定义 一 个 如 上 所 述 的 潜在 的 变量 Z 上 的 高 斯 过 程 ， 并 令 











HRE 高 斯 过 程 、 核 方法 及 支持 向 量 机 341 


Po =)= (E.5) 


更 一 般 地 ， 对 于 多 类 别 的 情况 ， 可 以 用 归 一 化 的 指数 函数 代替 sigmoidal 函 数 。 
核 方 法 和 支持 向 量 机 


核 方法 和 支持 向 量 机 (SVM) 与 高 斯 过 程 有 关联 ， 在 分 类 和 回归 问题 中 都 可 
以 应 用 。 简 单 起 见 ， 我 们 在 这 里 只 考虑 两 类 别 分 类 问题 ， 其 中 给 定 已 确 知 类 别 的 
样本 集合 (x, 7% )，z 是 输入 向 量 ，yF= + 1， 表 示 对 应 的 类 别 ' 或 8 。 分 类 记号 
a(0, 1) 与 上 面 的 表达 法 等 价 ， 但 会 导致 比较 昧 效 的 记 法 。 作 为 例子 ， 下 面 考虑 
给 定 的 蛋白 质 〔 或 基因 ) 是 否 属于 某 个 家 族 的 问题 ， 其 中 给 定 家 族 内 ( 正 样本 ) 
和 家 族 外 【和 负 样 本 ) 的 氨基 酸 序列 ( 或 表达 水 平 )。[25. 98) 特别 她 ，x 的 长 度 可 
能 随 变 化 。 新 样本 x 的 类 别 标签 ?由 依赖 于 训练 样本 的 判别 函数 D( x(x, yi) ) 决定 ， 
形式 是 y=sign( D(x; {x y,) ))。 用 概率 形式 表示 则 是 

















y=sign(D(x:{x,,9,}))= sn 路 9 (E.6) 


在 核 方法 中 ， 判 别 函数 用 以 下 形式 展开 : 
D(x)= D yK (a x)= YAK. x)- YAK, x) (E7) 
7 H 


ra 











此 ，logP( He) = Dy 4K(,*)， 或 者 两 者 只 相差 一 个 无 关 紧 要 的 常数 ， 负 
样本 也 有 类 似 关系 。 玉 称 为 核 函 数 。 直 观 上 ， 这 种 处 理 的 思想 是 对 所 有 已 知 样本 
进行 加 权 从 而 将 新 样本 分 类 ， 已 知 样本 的 权重 与 两 个 因素 有 关 ， 系数 4 >0， 衡 量 
样本 i 的 重要 程度 ; B(x, x) 衡量 z 和 x 之 间 的 相似 程度 。 这 样 判别 函数 的 表达 式 
直接 依 车 于 样本 ， 这 一 点 和 神经 网 络 不 同 ， 后 岩 的 判别 通过 其 已 训练 的 参数 间接 
依赖 于 训练 样本 。 因 此 应 用 核 方法 时 ， 选 择 合适 的 核 函 数 K 以 及 权重 4 非常 重要 。 
不 同 的 选择 方式 产生 了 一 系列 不 同 的 方法 ， 包 括 广义 线性 模型 和 SVM。 


E.2.1 核 函数 的 选择 


粗略 地 说 ， 根 据 核 通 数 的 数学 理论 ， 核 函数 K 必 须 是 正定 的 。 根 据 泛 函 分 析 
中 的 Mercer 定 理 ( 为 使 内 容 完整 ， 该 定理 将 在 BE.3.2 节 给 出 )， 天 可 以 表示 为 如 下 形 
式 的 内 积 : 












































342 生物 信息 学 


KK (x, x) =p( x ) p(x ) (E.8) 


此 从 男 一 个 角度 看 ， 可 以 认为 初始 的 x 向 量 被 函数 p(x ) 映射 到 “特征 ”空间 。 
注意 特征 空间 的 维 数 很 高 甚至 为 无 穷 ， 而 且 即 使 输入 向 量 x 的 长 度 不 同 ， 特 征 向 
BoC) 的 维 数 仍然 相同 。 两 个 向 量 的 相似 性 通过 特征 空间 中 的 内 积 加 以 衡量 。 
事实 上 也 可 以 计算 软 几 里 德 距离 p(x;) -9( x) P=Ks-2KtK;， 它 在 初始 的 向 量 
上 定义 了 一 种 伪 距 离 【pseudodistance )。 

核 方法 的 基本 思想 是 在 特征 空间 而 不 是 在 初始 空间 中 定义 一 个 线性 或 非 线性 
的 判别 面 。 内 为 所 有 的 判别 都 可 以 通过 核 函 数 和 训练 样本 给 出 ， 所 以 不 需要 明确 
地 构造 特征 空间 。 另 外 ， 判别 面 直 接 依赖 于 训练 样本 的 一 个 子 集 一 一 支持 向 量子 
集 。 












































注意 点 积 核 函 数 提供 了 一 种 在 特征 空间 中 比较 向 量 的 方法 。 当 它 直 接 用 于 判 
别 函 数 时 ， 它 对 应 于 在 特征 空间 中 寻找 线性 分 界 超 平面 。 使 用 从 内 积 核 尊 数 K 衍 
生出 来 的 更 复杂 的 核 函 数 K', 很 容易 找到 特征 空间 中 更 复杂 的 分 界面 (二 次 或 更 
高 阶 次 )。 例 如 : 

e 多 项 式 核 函数 : KK' (Cap xj) = [ 1+K( x, x) I" 


mswmm, K (5-35) =o 35 (ls1)-o(s) (las) -os 
© HE RRR. K Cx, x) =tanh (ued x+) 
E.2.2 ”Fisher 核 函数 


参考 文献 [275 ] 给 出 了 一 种 把 核 方法 和 概率 生成 模型 结合 起 来 的 通用 技术 。 
基本 的 思想 是 : HMM 之 类 的 生成 模型 通常 只 用 正 样本 训练 ， 因 而 对 判别 问题 来 
说 可 能 并 不 总 是 最 优 的 。 然 而 ， 同 时 利用 正 、 负 样本 及 一 个 核 函 数 天 《zx x)= 
U Cx) FU (x), 可 以 从 生成 模型 构造 出 判别 模型 ， 其 中 是 生 成 模型 的 对 数 
似 然 度 对 于 模型 参数 U(x) 的 梯度 ，U(x) =AlogP( xlw ) /93w。 这 个 梯度 描述 了 给 
定 值 的 w 对 于 生成 样本 x 的 贡献 。 对 于 指数 族 分 布 ， 梯 度 本 质 上 就 是 充分 统计 量 。 
需要 再 次 指出 ， 即 使 * 的 长 度 不 同 ，U( x ) 仍然 具有 相同 的 长 度 。 以 在 蛋白 质 家 族 
上 训练 的 HMM 为 例 ，U (x ) 是 第 7 章 中 计算 的 导数 向 量 。F 是 Fisher 信 息 和 矩阵， 
F=E[L U(x) U(x) ] [对 P(xlw) 取 期 望 值 ] ,这 类 核 函 数 称 为 Fisher 核 函数 。 
Fisher 和 矩阵 由 对 数 似 然 度 的 2 阶 导数 构成 ， 因 此 和 对 应 的 流 形 〈manifold ) 的 局 部 
曲率 有 关 〈 参考 文献 [ 15 ] 中 的 例子 )。F 确 定 了 这 个 流 形 的 黎 曼 度量 。 特 别 地 ， 
用 两 个 很 接近 的 参数 w 和 w+g WN, FURR EEFE, MER LUE 
个 模型 之 间 的 相对 箭 。 对 于 很 多 例子 ， 至 少 在 渐 近 的 意义 上 ， 可 以 用 较 简单 的 点 
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积 形式 近似 Fisher 核 明 数 。 也 可 以 用 上 面 提 到 过 的 变换 修正 Fisher 核 函数 ， 例 如 


(na) =el- (U(x) Ula) (Ula) - 4) 

这 说 明 ， 至 少 在 渐 近 意义 上 ，Fisher 核 分 类 器 (Fisher kernel classifier) 不 会 
比 生 成 概率 模型 对 应 的 MAP 判 别 准 则 差 。 参 考 文献 [275 ] 给 出 了 一 个 利用 Fisher 
核 消 数 检测 较 远 的 同 源 性 的 例子 。 

E.2.3 ”权重 选择 

权重 4 一 般 是 通过 选 代 一 个 目标 函数 (分 类 损失 ) 的 优化 过 程 而 得 到 。 通 常 
这 对 应 一 个 二 次 优化 问题 。 权 重 常常 可 以 看 成 拉 格 朗 日 算 子 ,或 者 是 该 问题 的 原 
始 参 数 的 对 侦 权 重 ( 参考 E.2.4 节 )。 对 于 大 训练 集 ， 在 最 优点 上 很 多 权重 等 于 0。 
影响 决策 的 只 是 权重 不 为 0 的 向 基 ， 它 们 被 称 为 支持 向 量 。 

为 此 考虑 一 个 样本 x;,， 它 的 目标 类 别 是 y,。 经 然 我们 是 根据 D(x,) 的 符号 进 
行 决策 ,那么 理想 情况 下 ， 我 们 希望 yD(x,)， 也 就 是 样本 i 的 边界 能 够 尽 可 能 大 。 
由 于 边界 随和 ,的 变化 也 成 比例 变化 ， 很 白 然 地 要 对 每 个 1 引入 另 一 个 约束 条 件 0 专 
4 所 1。 如 果 在 特征 空 间 中 确实 存在 一 个 分 界面 ， 一 个 合适 的 目标 消 数 是 对 最 坏 情 
况 下 的 边界 进行 最 大 化 。 这 也 称 为 风险 最 小 化 ， 对 应 于 maxamin; yD) SVM 
可 以 定义 为 一 类 基于 结构 风险 最 小 化 的 核 方 法 〈 参 看 BE.2.4 节 )。 把 表达 式 中 的 中 
用 核 函数 替换 ， 就 得 到 maxa min, LAK 。 上 式 可 以 改写 为 max min, LAA, 
其 中 4 syy Ky 且 0<< 和 <1。 显 然 在 最 小 化 过 程 中 ， 非 零 系数 4 相对 应 的 将 是 0 
或 者 1。 在 一 个 大 的 训练 集中 ， 很 多 权重 都 是 0， 在 最 优点 处 也 是 如 此 。 由 十 现实 
的 问题 大 多 数 无 法 满足 边界 的 约束 条 件 ， 我 们 可 以 采取 一 种 相似 的 策略 [ 另 一 种 
方法 是 使 用 松弛 变量 (slack variable )， 如 E2.5 中 的 例子 所 示 ] 。 鲍 如 ， 我 们 可 以 
最 大 化 边界 的 加 权 平均 ， 权 重 入 反映 了 样本 之 间 的 关联 程度 。 因 此 我 们 一 般 希 望 
在 4 满足 一 些 线性 约束 条 件 时 ， 最 大 化 形 如 也 ,Ay; D(x,) 的 二 次 表达 式 。 存 在 进 
行 这 类 优化 的 标准 技术 ,例如 ， 一 个 用 于 最 小 化 的 典型 应 数 是 






























































E(4)= Shave, )+ 24] (E9) 

这 个 约束 最 优化 问题 的 解 是 惟一 的 ， 条 件 是 对 于 任意 有 限 的 样本 集 ， 对 应 的 

核算 阵 Ks 是 正定 的 。 可 以 用 标准 的 迭代 方法 求解 ， 但 有 时 可 能 收敛 得 很 慢 。 为 了 

允许 训练 集中 的 错误 和 偏差 ， 核 逢 阵 K 可 以 改 为 KtpyD， 其 中 是 对 角 阵 ， 在 对 应 

正 样本 和 负 样本 的 位 置 分 别 为 只 和 dl OPO) 参考 文献 [95 ] 中 给 出 一 个 将 
SVM 应 用 于 基因 表达 数据 的 例子 。 
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总 之 ， 核 方法 和 SVM 有 一 些 很 吸引 人 的 特点 。 如 上 所 述 ， 它 们 是 有 监督 学 习 
方法 ， 用 于 处 理 带 有 类 别 标签 的 数据 。 这 些 方法 可 以 在 高 维 空间 中 生成 灵活 的 决 
策 面 。 这 种 灵活 性 与 核 函 数 的 选择 有 关 。 通 过 某 种 形式 的 边界 最 大 化 ， 可 以 控制 
过 拟 合 问题 。 这 些 方法 可 以 处 理 像 生物 序列 那样 的 输 人 向 量 不 等 长 的 情况 ， 还 可 
以 处 理 很 大 的 特征 空间 。 由 于 决策 面 完全 用 核 函 数 和 相关 训练 集中 稀疏 的 支持 向 
量子 集 定义 ， 因 此 不 需要 显 式 地 构造 特征 空间 。 学 习 是 通过 用 和 迭代 方法 求解 线性 
约束 的 二 次 型 优化 问题 来 完成 的 。 


E.2.4 ”结构 风险 最 小 化 和 VC 维 数 


统计 学 习 理论 给 出 一 些 不 等 式 ， 用 于 指导 包括 SVM 在 内 的 一 般 学 习 系 统 的 设 
计 。 考 虑 由 参数 向 量 w 表 示 的 一 族 分 类 函数 f(x; w )。 如 果 数 据点 (x, y) 是 从 某 
个 联合 分 布 P(x, y) 中 得 到 ， 那 么 希望 我 到 具有 最 小 错误 率 或 风险 的 函数 


Rw) = | Sy -Ale wale 9) (B10) 


而 风险 通常 是 未 知 的， 训练 集 上 的 经 验 风 险 则 是 已 知 的 : 





























K 
Rel) = zg Ubi Flas (E.11) 
统计 学 习 理论 的 一 个 基本 不 等 式 是 : 对 于 任何 0 生 ? 和 1， 下 式 以 概率 1-? 成 立 ， 
lw) <n) + PEED) esin) (E12) 


其 中 是 一 个 称 为 Vapnik-Chervonenkis 维 数 (VC 维 数 ) 的 非 负 整数 。[533] 

VC 维 数 是 函数 集 f(x; w) 的 属 件 。 如 果 给 定 的 必 点 的 集合 能 够 用 这 个 函数 集中 的 
函数 按 所 有 2* 种 情况 分 类 ， 那 么 称 这 个 点 集 是 可 以 被 打 散 的 (shattered )。 例 如 ， 
MRSC w) 是 平面 上 的 直线 集合 ， 那 么 所 有 两 个 点 的 集合 都 可 以 容易 地 打 散 ， 
而 大 部 分 -= 个 点 的 集合 〈 除 三 点 共 线 情况 外 ) 也 可 以 被 打 散 。 但 四 点 集合 没有 能 
被 打 散 的 。 函 数 集 F( 9 w ) 的 VC 维 数 是 能 被 打 散 的 最 大 点 集中 的 点 的 个 数 。 因 此 ， 
平面 中 所 有 直线 的 集合 的 VC 维 数 为 3， 更 一 般 地 可 以 证 明 , 在 通常 的 n 维 欧 几 里 德 
空间 中 的 超 平面 的 VC 维 数 是 n+1。 
(E.12 ) 基本 不 等 式 以 某 种 方式 体现 了 偏差 /方差 或 者 拟 合 / 欠 拟 合 的 折 中 。 它 
提示 我 们 可 以 通过 两 种 方式 榨 制 风险 :经验 风 险 ( 对 数据 的 拟 合 程度 ) 和 学 习 中 
所 用 的 是 数 集 的 VC 维 数 〔 或 者 容量 )。 结 构 风 险 最 小 化 的 目标 是 通过 最 小 化 〔E. 
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12) 右边 项 ， 而 对 这 两 项 同时 进行 优化 。 
E.2.5 ”简单 的 例子 : 线性 和 广义 线性 模型 


首先 考虑 D(x; w) = wix+wi 形 式 的 线性 模型 家 族 ， 其 中 w= (w, w), wE 
一 个 向 量 ，w, 是 标量 ， 它 们 应 按 比 例 缩 放 使 得 minjDCx; w) |=1。 如 果 R 是 包含 训 
练 样本 的 最 小 球体 的 半径 并 且 wi <4， 那 么 可 以 证 明 这 族 超 平面 和 的 VC 维 数 4 有 
界 : h<R*A?。 这 个 界 可 能 比 上 述 的 n+1 严 格 得 多 ， 因 此 我 们 可 以 用 4 控制 超 平面 集 
的 容量 。 

如 果 存 在 一 个 分 界 超 平面 , 那么 上 述 比例 意味 着 对 每 个 样本 尘 有 yD Ow) Slo 
更 一 般 的 情形 下 ， 这 个 约束 可 能 不 满 是 ,我们 可 以 引入 松弛 变量 5>0， 并 且 要 求 
VDC w) =l- M (E12) 中 风险 的 界 进行 最 小 化 的 支持 向 量 方法 ， 就 是 最 
小 化 、 

















EWwl=ww+ uP’ ， 约 束 条 件 为 名 >0 且 MD(zw) 21-8 (E13) 


(E13) 中 的 第 一 项 产生 较 小 的 VC 维 ， 而 第 二 项 则 减 小 的 全 局 误差 《经验 风险 ) 引 
人 拉 格 朗 日 算 子 入 并 使 用 优化 理论 中 的 Kuhn-Tucker 法 则 ， 就 可 以 证 明 解 的 形式 是 w= 
Dy Asie 这 个 结果 也 可 以 很 直观 地 通过 几何 上 的 考虑 得 到 ， 因 为 向 量 w 都 是 垩 直 于 
超 平面 。 由 此 得 到 对 应 于 一 个 简单 点 积 核 函 数 的 决策 函数 呈 ( 瑟 内 = 了 ,rtxz+w。 
只 有 对 应 于 支持 向 量 的 那 部 分 系数 4 不 为 0， 而 且 它们 对 应 的 松弛 变量 是 亿 和 的 ; 
yiD(niw ) =1-&。 可 以 通过 对 二 次 型 目标 函数 最 小 化 得 到 系数 1 ， 
































1 + 
E(A)=-D A tD Ihain, 约束 条 件 为 0< YSE Yay, (E14) 
i ü i 





在 logistic 线 性 模型 中 ，P(y) =D(x) =o( yw'x )， 其 中 m 是 参数 向 量 ，o 是 
Sigmoidal BoC u ) =1/《 1+e*)。w 的 一 种 标准 的 先 验 分 布 是 平均 值 为 0、 方差 为 
C 的 高 斯 分 布 。 忽 略 常数 项 后 ， 训 练 集 的 负 对 数 后 验 概率 是 





E(w)= -osclow 十 awe (E.15) 


容易 验证 最 优 解 必须 满足 
Cn (E16) 

















其 中 , A =dlogo(z)/dz,z=yw"x, 。 因 此 我 们 得 到 了 (E7) 形式 的 通 解 ， 核 为 
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E.3 


K(x; x) = x7Cx;0 
高 斯 过 程 和 SVM 的 定理 


为 完整 起 见 ， 这 里 将 叙述 两 个 有 用 的 定理 ， 它 们 是 核 方法 、SVM 以 及 高 斯 过 
程 的 理论 基础 :概率 论 和 调和 分 析 中 的 Bochner 定 理 以 及 泛 函 分 析 中 的 Mercer 定 
理 。 


E.3.1 ” Bochner 定理 


Bochner 定 理 以 傅 里 叶 变 换 的 形式 完整 地 描述 了 特征 函数 的 特点 ， 并 且 还 附 
带 建 立 了 连续 平稳 过 程 的 特征 函数 和 协 方差 函数 之 间 的 等 价 人 性。 
考虑 一 个 复 随 机 过 程 ， 即 一 族 复 随机 变量 {X=U,tiV,}， 其 中 -w<t<+%。 为 
简单 起 见 ， 假 定 E( X,) =0， 并 用 Cov( X,, X,) =E( X,, X,) 定义 协 方差 。 我 们 假 
定 过 程 妨 是 平稳 的 和 连续 的 ， 这 隐 含 着 协 方差 函数 是 连续 的 并 有 满足 
Cov( X,, Xa) =f (1) (E.17) 


st 


些 它 仅仅 依赖 于 变量 之 间 的 距离 。 在 这 些 假设 条 件 下 ，Bochner 定 理 断 言 了 满足 



































f= 请 e™u(da) (E.18) 





其 中 /是 实数 轴 上 的 测度 ， 总 积分 为 F ( 0 )。 这 意味 着 是 正定 的 ， 并 且 是 一 个 有 
眼 测度 的 傅 里 叶 变 换 。 如 果 和 是 实 变量 ， 则 测度 上 是 对 称 的 ， 且 有 














f= f cosaru(aa) (B.19) 


测度 4 称 为 过 程 的 谱 测 度 ( spectral measure )。 相 反 地 ， 给 定 实数 轴 上 的 任意 有 限 
测度 4， 可 以 证 明 存 在 一 个 平稳 的 随机 过 程 % ， 其 谱 测度 为 上 。 测 度 Mr (0) 是 一 
个 概率 测度 ， 因 此 (E18) 中 的 函数 了 是 一 个 特征 函数 。 换 言 之 ， 等 价 的 定理 是 : 
连续 函数 g(:) 是 某 一 概率 分 布 的 特征 函数 ， 当 且 仅 当 它 是 正定 的 【 即 满足 类 似 
(E18) 的 关系 ] 并 满足 归 一 化 条 件 g( 0) =1。 因 此 连续 的 特征 函数 与 一 个 平稳 过 
程 的 协 方差 酉 数 是 等 价 的 ， 至 多 相差 常数 因子 。 更 多 细节 见 参考 文献 [ 177 ] 。 


E.3.2 ”Mercer 定 理 
Mercer 定 理 揭示 了 对 称 正定 核 函 数 与 “特征 空间 ”中 的 点 积 的 关系 。 考 虑 两 
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DL, PATE) 空间 之 间 的 积分 算 子 x : Ly*L,， 核 K 是 连续 对 称 的 ， 则 

(cfly= |K) (E.20) 
假设 K 也 是 正定 的 ， 亦 即 若 fz#0， 有 

ADCeyyyO)anty>0 (B21) 
FFE EATEN PB BAES, (x )， 使 得 K 可 以 被 表示 为 如 下 形式 : 





Ke = D880) (B22) 


其 中 ,>>0， 并 且 任 意 一 对 i 和 j 的 标量 积 (Eg) =s, 标准 正 交 )。 根 据 (E.20) 
和 标准 正 交 和 条件， 我们 可 以 得 到 











CA = [AE CK OV 40) (E23) 


换言之 ，x 是 一 个 紧 算 子 ， 可 以 进行 特征 分 解 ， 其 特征 向 量 为 ， 特 征 值 为 非 负 值 
Ajo RURAL PROC x) 为 


H)= VAC) (p24) 


则 再 次 使 用 标准 正 交 条 件 可 以 得 到 
K(x, y) =@( x) Cy) (E.25 ) 


EER (E8) 中 需要 的 分 解 。 反之， 如果 我 们 使 用 连续 的 p(x) Wekt AMER 
特征 空间 ， 我 们 就 可 以 用 〈 BE.25 ) 定义 一 个 连续 的 核 K(x, y )。 对 应 的 算 子 是 正定 
A, 因为 











JIKE Oddy = | Fo) = 


> fro. AO) (y)dy = È (jrone 0 (BE.26) 








附录 F 公式 和 缩写 符号 


概率 论 


oa: 未 标定 置信 度 

POP, Q, R o): 概率 (真实 概率 分 布 ) 

*E( Eg ): 期 望 ( 对 概率 分 布 2 求 期 望 ) 

"Var: 方差 

"Cov: 协 方差 

“XY, Cay): 命题 或 随机 变量 (其 中 是 X, 的 真实 值 ) 
-Xe 集合 X 的 补 集 或 命题 x 的 否 命 题 
*XLY(XLYIZ): 随机 变量 X 和 Y 独 立 ( 给 定 2 时 条 件 独立 ) 

oP Oxy a): SPX, =,…,X,=x, 的 概率 。 在 上 下 文 确定 的 情形 中 ， 也 可 以 写成 
P( XX,…, X, )。 同 样 地 ， 对 于 特定 的 密度 钞 数 GQ， 写 成 @( x1…,x, ) ROK, 
Xa) 

“PCXY) CECMY)): 条 件 概率 (RARA) 

eN ua) NCC) NLP) N i) ES (高 斯 ) 分 布 ， 其 均值 为 上 、 
HAA RHI AEEA 

"Tine, A): 具有 参数 w 和 4 的 仰 玛 密度 

“Duo: 具有 参数 w 和 CC 的 Dirichlet 分 布 

exnim E), tC, mo): 自由 度 为 v、 位 置 为 m、 尺 度 因 子 为 6 的 学 生 氏 分 布 
"dx; 40), 10,07): ABA, REAP Hott ewes Hr 
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H 数 

+E, 能 量 、 误 差 、 负 对 数 似 然 度 或 负 对 数 后 验 概率 ( 根据 上 下 文 决定 是 何 种 含 
X) 

En Ec Ec: 训练 误差 、 推 广 误差 、 分 类 误差 

Ep: FER 

‘F: 自由 能 

of: 拉 格 朗 日 算 子 

D: 决策 函数 

oR: 风险 函数 

Ry: 经 验 风险 函数 

HCP), HOX): APROX AO, SRL 
*H(P,Q), H(X, Y): 分 布 P 与 9 (或 随机 变量 Z 与 7) HIHA 

°1(P,Q), X,Y) 分 布 P 与 Q (或 随机 变量 X 与 7) 之 间 的 互信 息 

*Z: 分 割 函 数 或 归 一 化 因子 (有 了 时 也 用 C》 
°C: 常数 或 归 一 化 因子 

+ 8(x,y): Kronecker 函 数 ， 当 x=y 时 取 值 为 1， 其 余 情 况 取 值 为 0 
"大 三: 函数 了 及 其 导数 
T(x): MERA 

*BCa, Q): 贝塔 函数 (附录 D ) 
“我 们 也 使 用 忆 代 表 上 点 (2 阶 导数 为 正 )， 门 代表 下 凸 〈2 阶 导数 为 负 )， 而 不 使 
用 容易 引起 混淆 的 “ 凸 "、“ 四 ”概念 


模型 、 字 符 集 和 序列 


+M ( M=M(w)): (具有 参数 w 的 ) 模型 
*D: 数据 

ol: 背景 信息 

oH: BEE (原因 ) 
*S= | sy5y 0, sah 系统 的 状态 集 
es: 状态 

“4(X): 字符 集 

“4= | A,C, G,T |: DNA 字 符 集 
"4= | A,C,G,Ui: RNA 字符 集 
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+ A= 1 A, C, D,… |， 氨 基 酸 字符 集 

A: 由 4 中 字符 组 成 的 所 有 有 限 长 的 串 所 构成 的 集合 

、0= (XiX): 序列 《其 中 “0D” 表示 “观察 量 ” 或 “排序 的 ”) 
+O. BIRR 

tOn, Og: 训练 序列 集 

+ Of: 第 k 条 序列 的 第 /个 字符 


图 和 集合 


°G=(V, E) 顶点 集 为 Y、 边 集 为 E 的 无 向 图 
°G=(V, E): 顶点 集 为 VY、 边 集 为 E 的 有 向 图 
"T: 树 

*N(i): 顶点 i 的 邻 节 点 

“AN (CD: 有 向 图 中 顶点 的 子 节点 

eN (i): 有 向 图 中 顶点 ;的 父 节点 

。C?*( 门 ， 有 向 图 中 顶点 i 的 后 代 

eC (G) 有 向 图 中 顶点 i 的 祖先 

NG) 顶点 集 1 的 邻 节 点 (或 边界 ) 
“?(G): 满足 图 G 所 确定 的 条 件 独立 性 假设 的 概率 分 布 族 
co: 图 G 的 团 图 
。G*: 图 G 的 伦 图 
，U, 门 ，; 集合 的 交 、 并 和 补 适 算 
"o: ER 

维 数 

* 41: 字符 集 符号 数 

“Ist: 状态 数 

“| 如: HMM/NN 混 合 模 型 中 的 隐 节 点 数 
oN: 序列 的 长 度 (平均 长 度 ) 


°K: 序列 或 样本 的 数 日 (例如 在 训练 集中 》 
eT: 时 间 标 度 〈 在 不 产生 混淆 的 情况 下 也 指 温度 ) 


一 般 参 数 
ow: 参数 向 量 
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ty: 从 状态 i 到 /的 转移 概率 ， 例 如 在 马尔 可 夫 链 中 
e (wi X) :算法 选 代 过 程 或 序列 中 的 时 间 指标 
er (3)， 算 法 迁 代 过 程 中 的 相对 时 间 指 标 
(wh: Rife 

H: 学 习 率 

神经 网 络 


ewy 从 节点 到 ;的 连接 权重 
sy As TURRA, NA 

DE (dpp): 训练 样本 ，4 为 输入 向 量 ，6 为 相应 的 目标 输出 向 量 

eyf Gs 节点 :的 输入 -输出 关系 ,x 为 节点 的 总 输入 ，/ 为 激活 函数 ，y 为 输出 
*y( di): 神经 网 络 输入 向 量 为 4 时 的 输出 

syld) 神经 网 络 输入 为 4 时 ， 第 个 输出 节点 的 输出 

“5 (di): 神经 网 络 输 入 为 & 时 ， 第 /个 输出 节点 的 目标 输出 值 


隐 马 氏 模 型 


cm d,i h: EF, WR, BANERA; 对 于 大 部 分 情况 ,i 只 是 一 个 下 标 
+ start, end: HMM 的 起 始 和 终止 状态 (ERP US RSME ) 

"EE: 模型 的 生成 状态 集合 

"D: 模型 的 删除 (ME) 状态 集合 

+L: 仅 在 附录 DD 中 出 现 ，L 表 示 HMM 环 状 构 架 中 的 状态 集 

ot, (wy): 从 状态 到 i 的 转移 概率 ( 归 -- 化 指数 函数 表示 ) 

* ex (wy): 状态 i 生成 字符 X 的 生成 概率 《 归 一 化 指数 函数 表示 ) 

<p 从 状态 7 到 i 的 哑 转 移 概 率 

on: 路 径 变量 

oni, X, m, O): 对 于 给 定 H8MM 中 的 序列 O， 状 态 i 沿 路 径 x 生 成 字符 X 的 次 数 
"offt): 前 向 变量 

“Qf (1)，HMM 环 状 构架 中 的 前 向 变量 

+ BO. 后 向 变量 

eA (1); 标定 的 前 向 变量 

+B). 标定 的 后 向 变量 

“和 (7): 对 于 HMM 中 的 一 个 给 定 观察 序列 ，{ 时 刻 处 于 状态 ;的 概率 
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。%i (t): 对 于 HMM 中 的 一 个 给 定 观察 序列 ，! 时 刻 由 状态 ;转移 到 j 的 概率 
。6.(t)，Viterbi 算 法 递归 过 程 中 使 用 的 变量 

，K: HMM 哑 循环 的 概率 

eb (X,Y,Z) 三 元 组 XYZ 的 可 弯曲 性 

。B(i, OO) 序列 DO 上 ;位 置 的 可 弯曲 性 

BC): 一 族 序 列 中 i 位 置 的 可 弯曲 性 

Ws 用 于 可 弯曲 性 计算 的 平均 窗 长 度 


双向 结构 


Ww: 参数 总 个 数 
*0,: 输出 的 概率 向 
*8,: 后 向 上 下 文 向 
°F 前 向 上 下 文 向 
oT: 输入 向 量 
enG): 输出 函数 
"8(.) 后 向 转移 函数 
OC): 前 后 转移 函数 
en: 链 中 状态 数 

*4: 平移 算 子 


文法 
































p ba 





"L: 语言 

°G: 文法 

LCG): 由 文法 G 生 成 的 语言 

R: 文法 的 产生 式 规则 

"V: 变量 字符 集 

*s=start: 起 始 变量 

sap: 文法 的 产生 式 规则 : a “PE R “VER B 

om Ct): 文法 中 的 衍生 变量 

“nl Bu, n, 0); 从 给 定 文法 中 推导 出 关于 序列 0 的 结论 x， 需 要 应 用 产生 式 规则 
a BRE 


+ Pase(Wase) ， 随 机 文法 中 产生 式 规则 a-»B 的 概率 EA RIE ) 
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系统 进化 树 


or: 根 节点 

X: 与 顶点 ;相关 联 的 字符 

dy: 节点 与 之 间 的 时 间距 离 

*PxjX;《 dj, ) :经 过 时 间 4d;;,，X, 被 X 蔡 换 的 概率 
AO: 与 {时 刻 序 列 位 置 :i 上 的 字符 相关 的 随机 变量 
e pit): 经 过 时 间 !+， 序 列 位 置 上 的 字符 X 被 Y 蔡 换 的 概率 
+ P(t) = Cpyy (1)): 纪 刻 的 蔡 换 概率 矩阵 

6 O= (qvx): 0 时 刻 矩 阵 P 的 导数 [G= 产 (0) ] 

+ P= (px): 稳 态 分 布 

oy: 与 树 的 节点 相关 的 随机 变量 

oT: 树 的 内 节点 集 

“0O*( 让 :以 节点 议 根 节点 的 子 树 所 包含 的 证 所 


微 阵列 


en Cion): 《处 理 、 对 照 实验 中 ) 一 个 基因 表达 水 平 的 测量 次 数 
ienai (oeer): 对照 (处理 ) 实验 中 ， 一 个 基因 表达 水 平 的 测量 次 数 
em (mom): 《处 理 、 对 照 实验 中 ) 一 个 基因 的 平均 表达 水 平 

e (hs): 处理、 对 照 实验 中 ) 一 个 基因 表达 水 平 的 方差 

dd HET ROSIN GE A 

K: RARI 


核 方 法 和 支持 向 量 机 


ow: 模型 参数 向 量 
+a: 权重 
oe: 松弛 变量 

KK) 核 函数 

F: Fisher 信 息 和 矩阵 

Cx): 特征 向 量 

UC x): 对 数 似 然 度 关于 模型 参数 的 梯度 向 量 
oh: VC% 
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缩写 符号 


+ CFG: context-free grammar， 上 下 文 无 关 文法 

*CSG: context-sensitive grammar， 上 下 文 相关 文法 

*BIOHMM: bidirectional IDOHMM ， 双 向 IOHMM 

*BRNN: bidirectional RNN， 双 向 RNN 

«EM: expectation maximization ， 期 望 最 大 化 

，HMM: hidden Markov model， 隐 马 氏 模型 

*IOHMM: input-output HMM, 输入 -输出 HMM 

。LMS; least mean square, MIJ 

*MAP: maximum a posteriori, MAGA 

*MaxEnt: maximum entropy, BAN 

*MCMC: Markov chain Monte Carlo， 马 尔 可 夫 链 一 蒙特 卡 罗 方 法 
。ML; maximum tikelihood， 最 大 似 然 估计 

"MLP:， multilayer perceptron， 多 层 感 知 器 

+MP: mean posterior, 平均 后 验 分 布 

+NN: neural network， 神 经 网 络 

*。RNN: recursive NN， 反 馈 型 神经 网 络 

«RG; regular grammar， 正 则 文法 

。REG: recursively enumerable grammar, BAA RASH 

¢SG: stochastic grammar， 随 机 文法 
* SCFG:; stochastic context-free grammar， 随 机 上 下 文 无 关 文 法 
。SS: secondary structure ， 二 级 结构 

“SVM: support vector machine， 支 持 向 量 机 

e VC: Vapnik-Chervonenkis 
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inference 
input representation 
inside—outside algorithm 
inteins 
intron 

splice sites 


inverse models 


Jacobs, R. E. 
Johannsen, W. 
Jones, D. 

k-means algorithm 





同 源 模 建 
HSSP 数 据 库 
v- WR 
人 类 
人 类 基因 组 
人 类 基因 组 染色 体 大 小 
人 类 基因 组 规模 
混合 模型 
杂交 
at 
Bike 
feo KBE 
BUKERE 
BER 
超 平面 
假设 
复杂 假设 















































免疫 系统 
归纳 
婴儿 
推断 
输 人 表示 
内 部 一 外 部 算法 
AAR 
ASF 
内 含 子 剪接 位 点 
逆 模 型 


R-E- 雅 各 布 斯 
WARR 

D :琼斯 

k 均 值 聚 类 法 








Kabsch, W. 
Kernel methods 
knowledge-based network 
Krogh, A. 
Lagrange multiplier 
language 

computer 

natural 

spelling 
learning 

supervised 

unsupervised. 
learning rate 
likelihood 
likelihood function 
linguistics 
lipid environment 
lipid membrane 
liposome-like vesicles 
loss function 


machine learning 

mammoth 

map 

MAP estimate 

MaxEnt 

membrane proteins 

MEME 

Mercer’s theorem 

metabolic networks 

Metropolis algorithm 
generalizations 

microarray expression data 
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WwW 卡 布 希 

核 方法 

基于 知识 的 网 络 

A+ KP 

拉 格 朗 日 算 子 

语言 

计算 机 语言 
自然 语言 
语言 拼写 

学 习 
有 监督 学 习 
无 监督 学 习 

学 习 率 

似 然 〈 似 然 度 ) 

似 然 函数 

语言 学 

脂 环境 

脂 膜 

类 脂 质 体 

损失 函数 





机 器 学 习 

EAR 

地 图 

最 大 后 验 估计 

BK 

BEA 

MEME 程 序 

Mercer 定 理 

代谢 网 络 

Metropolis 算 法 
Metropolis 算 法 推广 

微 阵列 表达 数据 
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microarrays 
mixture models 
model complexity 
models 
graphical 
hierarchical 
hybrid 
Monte Carlo 
hybrid methods 
multiple alignment 


mutual information 


N-terminal 
N-value paradox 
Neal, R. M. 
Needleman-Wunch algorithm 
NetGene 
NetPlantGene 
NetTalk perceptron architecture 
neural net work 
profiles 
Tecurrent 
weight logo 
Nielsen, H. 
nonstochastic 
grammars 
nucleosome 


Ockham’s Razor 
orthogonal vector representation 


overfitting 


palindrome 





微 阵列 
混合 模型 
模型 复杂 度 
模型 
图 模型 
层次 模型 
混合 模型 
蒙特 卡 罗 
混合 式 蒙特 卡 罗 方 法 
多 重 序 列 比 对 
互信 息 


Nott 

NERE 
R-M: 尼 尔 
Needieman~Wunch 算 法 
NetGene 预 测算 法 
NetPlantGene 程 序 
NetTalk 感 知 器 结构 
神经 网 络 
神经 网 络 序列 谱 
反馈 神经 网 络 
神经 网 络 权 重 标 识 
H - 尼尔森 

非 随机 
非 随 机 文法 
核 小 体 


员 卡 姆 剃刀 原则 
正 交 向 量 形式 编码 
过 拟 合 


回 文 结构 





PAM matrix 
parameters 

emission 

transition 
parse tree 
partition function 
pathway 
PDB 
perceptron 

multilayer 
Petersen, T. N. 
Pfam 
phase transition 
phonemes 
phosphorylation 
phylogenetic information 
phylogenetic tree 
plants 
polyadenylation 
polymorphism 
position-specific scoring matrices 
posttranslational modification 
prior 

conjugate 

Dirichlet 

gamma 

Gaussian 

use in hybrid architectures 


uniform 
profile 
bending potential 


emission 
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PAME RE 
参数 

生成 参数 
转移 参数 
分 析 树 

分 割 函数 
通路 
PDB 数 据 库 
感知 器 
多 层 感知 器 
TN RAE 
Pfam 数 据 库 
相 变 
音素 
磷酸 化 
系统 进化 信息 
系统 进化 树 
植物 
RRR 
多 态 性 
位 置 特异 性 分 值 和 矩阵 
翻译 后 修饰 

先 验 概率 ， 先 验 分 布 
FARA 
Dirichlet 先 验 分 布 
伽 玛 先 验 分 布 
高 斯 先 验 分 布 





用 于 混合 体系 的 高 斯 先 验 


分 布 
均匀 先 验 分 布 
序列 谱 ， 分 布 图 
a ES iA 
生成 谱 
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promoter 
propositions 
PROSITE 
protein 
beta-sheet 
beta-sheet partners 
helix 
helix periodicity 
length 
networks 
secondary structure 
secretory 
tertiary structure 
Protein Data Bank 
protein folding 
proteome 
pruning 
Prusiner, $. B. 
pseudo-genes 
pseudoknots 
PSI-BLAST 
PSI-PRED 


Qian, N. 
quantum chemistry 


teading frame 

open 
reductionism 
redundancy reduction 
regression 
regularizer 
regulatory circuits 


启动 子 
命题 
PROSITE 数 据 库 
蛋白 质 
RAR SiR 
EAR Bir tHA 
ARE 
蛋白 质 螺旋 周期 性 
蛋白 质 长 度 
蛋白 质 网 络 
蛋白 质 二 级 结构 
分 洲 性 蛋白 
蛋白 质 三 级 结构 
PDB 数据 库 
RAR 
蛋白 质 组 
BRE 
S: B- 普 鲁 赛 纳 
伪 基 因 
伪 结 
PSI-BLAST 程 序 
PSI-PRED 程 序 








N+ B 
量子 化 学 


阅读 框 

开放 阅读 框 
TRAR 
回归 
正则 因子 
调控 网 络 











relative entropy 

renaturation kinetics 

repeats 

representation 
orthogonal 
semiotic 

ribosome 

ribosome binding sites 

Riis, S. 

ROC curve 

Rost, B. 

tules 


Chou-Fasman 


S. solfataricus 
Sander, C. 
Schneider, R. 
Schneider, T. 
secretory pathway 
Sejnowski, T. J. 
sensitivity 
sequence 

data 

families 

logo 
sequence space 


Shine-Dalgarno sequence 


signal anchor 
signal peptide 
signalling networks 
SignalP 


simulated annealing 


single nucleotide polymorphism 
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FORTE 
复 性 动力 学 
重复 序列 

表示 

正 交 表示 
符号 表示 
核糖 体 
核糖 体 结合 位 点 
s- BR 
ROCHER 

Be 罗斯 特 
规则 
Chou-Fasman 规 则 





极端 嗜 热 古 细菌 
c ' 桑 德 

R HRE 

T + 施 奈 德 
分 小 通路 
Ts): 塞 诺 斯 基 
敏感 度 

序列 
序列 数据 

序列 家 族 

序列 标识 

序列 空间 

夏 因 一 达尔 加 诺 序 列 
信和 号 锚 

信和 号 肽 
信号 转 导 网 络 
SignalP 预 测 程序 
模拟 退火 算法 
PBT BE ABE 
































404 生物 信息 学 


Smith-Waterman algorithm 
Social security numbers 
sparse encoding 
specificity 
speech recognition 
splice site 
splines 
SSpro 
statistical mechanics 
statistical model fitting 
stochastic 

grammars 

sampling 

units 
Stormo, G. 
STRIDE program 
string 
Student distribution 
support vector machines 
SWISS-PROT 
systemic properties 


TATA-box 
threshold gate 
time series 
TMHMM 
training 
balanced 
transcription initiation 
transfer free energy 
transfer function 
sigmoidal 


translation initiation 





Smith-Waterman 算 法 

社会 保险 导 

稀疏 编码 

特异 性 

语音 识别 

剪接 位 点 

样 条 函数 

SSpro RS TA 
统计 力学 

统计 模型 拟 合 

随机 
随机 文法 
随机 抽样 
随机 神经 元 
G: 斯 托 莹 
STRIDE 程 序 
字符 审 
学 生 氏 分 布 
支持 向 量 机 
SWISS-PROT 数 据 库 
系统 特性 








TATA 框 
BET 

时 间 序 列 
TMHMM 方 法 
训练 

平衡 训练 
转录 起 始 位 点 
转移 自由 能 
UH oR 
sigmoidal ig RX 
翻译 起 始 位 点 





trinucleotides 

tsar, Nicholas I 

t-test 

Turing machine 
halting problem 

twilight zone 


validation 
VC dimension 
virus 
visual inspection 
Viterbi algorithm 
von Heijne, G. 
Watson, J. D. 
Watson-Crick basepair 
weight 

decay 

logo 

matrix 

sharing 
weighting scheme 
White, S. H. 


winner-take-all 


Ycas, M. 
yeast 
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ZEREM 
沙皇 尼 古 拉 二 世 
! 检 验 
图 灵机 
停机 问题 
模糊 区 域 











检验 
VC 维 数 
病毒 
视觉 检查 
Viterbi 算 法 
G ' ew 
J"D: 沃 森 
沃 森 一 克 里 克 碱 基 对 
权重 

权重 衰减 

权重 标识 

权重 矩阵 

权重 共享 
权重 赋值 方法 
Ss H+ 怀特 
胜 者 通 吃 








M+ 伊 卡 斯 
酵母 


